W ubiegły piątek w aplikacji Microsoft Teams wystąpiła awaria, którą odczuły organizacje i użytkownicy na całym świecie. Wpływ na wiele funkcji aplikacji Teams i sprawianie, że korzystanie z aplikacji jest w większości bezużyteczne. Firma Microsoft potwierdziła, że ​​wystąpiły problemy z interfejsem API Teams na stronie Service Health 4:42 CEST (3:42 czasu UTC). I prawie godzinę później o godz 5:45 CEST (4:45 UTC) Microsoft również potwierdza problem na swoim koncie X (Twitter):

Następuje wiele aktualizacji wskazujących działania łagodzące podjęte przez firmę Microsoft:

Na koniec raport:

Jaki był problem?

W jednym z raportów aktualizacji Microsoft wspomina o tym:
„Nasz przegląd telemetrii usług wskazuje, że część infrastruktury bazy danych ułatwia korzystanie z wielu interfejsów API, występuje problem z siecią, co skutkuje uderzeniem. Kontynuujemy dochodzenie, aby wyizolować podstawową przyczynę problemu z siecią i opracować działania zaradcze.

Jak OfficeExpert TrueDEM zgłosić ten incydent?

EMEA

Patrząc na organizację mającą biura w Europie i USA, widzimy, że prawie dwie godziny przed wysłaniem przez Microsoft wiadomości na X i 45 minut przed pierwszym raportem o incydencie potwierdzającym, że coś się dzieje, OfficeExpert TrueDEM już to widział. Około 4:3 CEST (3:11 UTC) UTC zaczyna wskazywać, że czas reakcji usługi Teams Chats API gwałtownie rośnie. Natychmiastowy skok do prawie 10 sekund, podczas gdy usługa Messages API (ciemnoniebieska linia) również zaczyna rosnąć. Trwa to do około godziny XNUMX CEST (XNUMX:XNUMX UTC), kiedy poziom wydajności usług w końcu osiągnie normalny poziom czasów reakcji.

Wydaje się, że nie miało to wpływu na inne usługi, takie jak logowanie. 

Ameryka Północna

W przypadku Ameryki Północnej sytuacja wygląda jeszcze poważniej. Rozpoczęcie prawie godzinę później o 4:10 czasu UTC (19:1 czasu wschodniego) od razu wykazuje znacznie większy wpływ w porównaniu z Europą. Powoduje, że czas odpowiedzi na wiadomości Teams wynosi do 30 sekund. Trwa to godzinami. Wykazano nawet drugie nasilenie w czasie, gdy problemy w UE wydają się słabnąć. Do czasu ostatecznego rozwiązania problemów w USA około 7:30 czasu UTC (XNUMX:XNUMX czasu wschodniego)

Szybka identyfikacja obszaru odpowiedzialności

Gdy użytkownicy zaczynają zauważać problemy, dzwonią do pomocy technicznej, a administratorzy rozpoczynają dochodzenie. W tym momencie, OfficeExpert TrueDEM jest już świadomy, jak pokazano powyżej. Na długo przed tym, jak Microsoft potwierdzi cokolwiek za pośrednictwem swoich kanałów.

W ciągu 5 minut od wydłużenia czasu reakcji, OfficeExpert TrueDEM zaczyna pokazywać spadek wydajności usług na stronie Zdrowie środowiska. Podkreślając, że istnieje znaczny wpływ na API. Spadek staje się jeszcze bardziej wyraźny, gdy zaczyna zauważać się jego wpływ na stronę amerykańską. Wynik tylko 8 na 100 (reprezentujący normalnie oczekiwany stan użytkowników korzystających z aplikacji Teams w tej organizacji). To wyraźnie wskazuje, że coś się dzieje i ma wpływ na większość, jeśli nie na wszystkich użytkowników w organizacji. Wskazuje ponadto, że problem ma swoje źródło po stronie Microsoft (API). Nie po stronie uwierzytelniania i sieci, które nadal uzyskują normalny wynik (100).

Następnie Microsoft wysyła swój wstępny raport o incydencie 45 minut później. Jest to natychmiast odzwierciedlone na stronie Microsoft Health w OfficeExpert TrueDEM. Na tej stronie OfficeExpert TrueDEM pokazuje wszystkie zgłoszone przez firmę Microsoft incydenty i alerty dotyczące konkretnej organizacji. Dodawanie aktualizacji incydentów firmy Microsoft w miarę ich publikowania w formie ukierunkowanego i łatwego w nawigacji przeglądu do momentu zamknięcia problemu przez firmę Microsoft 2 dni później:

Podsumowanie

Wszelkie zakłócenia w Microsoft Teams mogą mieć poważny wpływ na działanie organizacji. Możliwość szybkiego zidentyfikowania, że ​​problem był związany z interfejsem API firmy Microsoft, umożliwił administratorom korzystanie z niego OfficeExpert TrueDEM aby od razu sprawdzić, czy prawdopodobną przyczyną jest sama chmura Microsoft. Eliminacja niepotrzebnych badań potencjalnych przyczyn. Koncentrując się na konkretnych sieciach i dostawcach usług internetowych, mogli nawet śledzić przywracanie usług najpierw w Europie, a później w USA.

  • Problem został po raz pierwszy zauważony w Europie i miał duży wpływ między innymi na czas reakcji czatów i wiadomości.
  • Problem uderzył w Amerykę Północną prawie godzinę później, ale jego skutki były tam jeszcze poważniejsze – czas reakcji sięgał 19 sekund i trwał znacznie dłużej.
  • OfficeExpert TrueDEM zauważył i zgłosił problem 42 minuty przed potwierdzeniem zdarzenia przez Microsoft za pośrednictwem Service Health i 1:45 godziny przed wysłaniem pierwszego tweeta na platformie X.
  • Z OfficeExpert TrueDEMadministratorzy mogli zobaczyć wpływ bieżących środków zaradczych firmy Microsoft na ich konkretną organizację i użytkowników w różnych regionach znacznie bardziej bezpośrednio niż to, co firma Microsoft komunikowała za pośrednictwem kanałów X i kondycji usług.