Letzten Freitag kam es bei Microsoft Teams zu einem Ausfall, den Organisationen und Benutzer auf der ganzen Welt zu spüren bekamen. Beeinträchtigt viele Funktionen der Teams-Anwendung und macht die Nutzung der Anwendung größtenteils nutzlos. Microsoft hat auf seiner Seite „Service Health“ bestätigt, dass es Probleme mit den Teams-APIs gibt 4:42 Uhr MESZ (3:42 Uhr UTC). Und fast eine Stunde später um 5:45 Uhr MESZ (4:45 UTC) bestätigt auch Microsoft das Problem auf seinem X-Konto (Twitter):

Es folgen mehrere Updates, die auf Abhilfemaßnahmen von Microsoft hinweisen:

Abschließend berichten:

Was war das Problem?

In einem der Update-Berichte erwähnt Microsoft Folgendes:
„Unsere Überprüfung der Service-Telemetrie zeigt, dass ein Teil der Datenbankinfrastruktur dies tut Ermöglicht mehrere APIs. Es liegt ein Netzwerkproblem vor, was zu Auswirkungen führt. Wir setzen unsere Untersuchung fort, um die zugrunde liegende Ursache des Netzwerkproblems zu isolieren und Abhilfemaßnahmen zu entwickeln.“

Wie hast OfficeExpert TrueDEM über diesen Vorfall berichten?

EMEA

Wenn wir uns eine Organisation mit Niederlassungen in Europa und den USA ansehen, können wir sehen, dass fast zwei Stunden bevor Microsoft die Nachricht auf X verschickt und 45 Minuten bevor der erste Vorfallbericht eintrifft, der bestätigt, dass etwas vor sich geht OfficeExpert TrueDEM habe es schon gesehen. Gegen 4:3 Uhr MESZ (3:11 Uhr UTC) beginnt es, was darauf hindeutet, dass die Reaktionszeit des Teams-Chats-API-Dienstes in die Höhe schnellt. Springt sofort auf fast 10 Sekunden, während auch der Nachrichten-API-Dienst (dunkelblaue Linie) zu wachsen beginnt. Dies dauert bis etwa XNUMX Uhr MESZ (XNUMX Uhr UTC), wenn die Serviceleistung endlich normale Reaktionszeiten erreicht.

Andere Dienste wie die Anmeldung scheinen nicht betroffen zu sein. 

Nordamerika

Für Nordamerika sieht das Bild noch gravierender aus. Es beginnt fast eine Stunde später um 4:10 Uhr UTC (19:1 Uhr EST) und zeigt im Vergleich zu Europa sofort eine viel größere Auswirkung. Dies führt zu Reaktionszeiten für Teams-Nachrichten von bis zu 30 Sekunden. Das geht stundenlang weiter. Es kommt sogar zu einem zweiten Aufflammen, etwa zu dem Zeitpunkt, an dem die Probleme in der EU nachzulassen scheinen. Bis die Probleme für die USA gegen 7:30 Uhr UTC (XNUMX:XNUMX Uhr EST) endlich gelöst sind.

Den Verantwortungsbereich schnell erkennen

Wenn Benutzer beginnen, Probleme zu bemerken, rufen sie den Support an und Administratoren beginnen mit der Untersuchung. In diesem Moment, OfficeExpert TrueDEM ist sich bereits bewusst, wie oben dargestellt. Lange bevor Microsoft über seine Kanäle irgendetwas anerkennt.

Innerhalb von 5 Minuten nach der Erhöhung der Reaktionszeit OfficeExpert TrueDEM beginnt auf seiner Seite „Environment Health“ den Rückgang der Serviceleistung anzuzeigen. Hervorheben, dass es erhebliche Auswirkungen auf die API gibt. Der Rückgang wird noch deutlicher, je deutlicher die Auswirkungen auf der US-Seite spürbar werden. Nur 8 von 100 Punkten (was dem normalerweise erwarteten Zustand für Benutzer entspricht, die Teams in dieser Organisation verwenden). Dies zeigt deutlich, dass etwas vor sich geht, das die meisten, wenn nicht alle Benutzer in der Organisation betrifft. Darüber hinaus wird deutlich, dass das Problem seinen Ursprung auf der Microsoft-API-Seite hat. Nicht auf der Authentifizierungs- und Netzwerkseite, die beide immer noch normale Werte (100) erzielen.

Microsoft versendet dann 45 Minuten später seinen ersten Vorfallbericht. Dies spiegelt sich sofort auf der Microsoft Health-Seite wider OfficeExpert TrueDEM. Auf dieser Seite OfficeExpert TrueDEM Zeigt alle von Microsoft gemeldeten Vorfälle und Warnungen an, die für die jeweilige Organisation relevant sind. Hinzufügen der Microsoft-Vorfallaktualisierungen, sobald sie veröffentlicht werden, in einer fokussierten und leicht navigierbaren Übersicht, bis das Problem zwei Tage später von Microsoft geschlossen wird:

Fazit

Jede Störung von Microsoft Teams kann erhebliche Auswirkungen auf den Betrieb von Organisationen haben. Die Möglichkeit, schnell zu erkennen, dass das Problem mit der Microsoft-API zusammenhängt, ermöglichte es Administratoren, Folgendes zu verwenden: OfficeExpert TrueDEM sofort zu erkennen, dass die wahrscheinliche Ursache bei der Microsoft-Cloud selbst lag. Eliminierung unnötiger Ursachenforschung. Indem sie sich auf bestimmte Netzwerke und ISPs konzentrierten, konnten sie sogar verfolgen, wie die Dienste zuerst in Europa und später in den USA wiederhergestellt wurden.

  • Das Problem machte sich erstmals in Europa bemerkbar und hatte unter anderem große Auswirkungen auf die Antwortzeiten von Chats und Nachrichten.
  • Das Problem traf Nordamerika fast eine Stunde später, doch dort waren die Auswirkungen noch schwerwiegender, da die Reaktionszeiten bis zu 19 Sekunden betrugen und viel länger anhielten.
  • OfficeExpert TrueDEM sahen und meldeten das Problem 42 Minuten bevor Microsoft den Vorfall über seinen Service Health bestätigte und 1:45 Stunden bevor sie den ersten Tweet auf X verschickten.
  • Mit der OfficeExpert TrueDEMkonnten Administratoren die Auswirkungen der laufenden Abhilfemaßnahmen von Microsoft auf ihre spezifische Organisation und Benutzer in verschiedenen Regionen viel direkter erkennen, als dies von Microsoft über seine X- und Service-Health-Kanäle kommuniziert wurde.