Am vergangenen Freitag kam es bei Microsoft Teams zu einem Ausfall, von dem Unternehmen und Benutzer auf der ganzen Welt betroffen waren. Dies wirkt sich auf viele Funktionen der Teams-Anwendung aus und macht die Verwendung der Anwendung weitgehend nutzlos. Microsoft bestätigte, dass es Probleme mit der Teams-API über seine Service Health-Seite um 16:42 Uhr MESZ (15:42 Uhr UTC) gab. Und fast eine Stunde später, um 17:45 Uhr MESZ (16:45 Uhr UTC), bestätigt auch Microsoft das Problem auf seinem X-Konto (Twitter):

Es folgen mehrere Updates, die auf Abhilfemaßnahmen von Microsoft hinweisen:

Endlich ein Bericht:

Was war das Problem?

In einem der Update-Berichte erwähnt Microsoft dies:
„Unsere Überprüfung der Service-Telemetrie deutet darauf hin, dass bei einem Teil der Datenbankinfrastruktur, die mehrere APIs unterstützt, ein Netzwerkproblem aufgetreten ist, das zu Beeinträchtigungen geführt hat. Wir setzen unsere Untersuchungen fort, um die Ursache für das Netzwerkproblem zu finden und Abhilfemaßnahmen zu entwickeln.

Wie hat OfficeExpert TrueDEM über diesen Vorfall berichtet?

EMEA

Betrachtet man ein Unternehmen mit Niederlassungen in Europa und den USA, so stellt man fest, dass OfficeExpert TrueDEM bereits fast zwei Stunden, bevor Microsoft die Nachricht über X versendet, und 45 Minuten, bevor der erste Vorfallsbericht eintrifft, um zu bestätigen, dass etwas vor sich geht, den Vorfall gesehen hat. Gegen 16:00 Uhr MESZ (15:00 Uhr UTC) wird angezeigt, dass die Antwortzeit des API-Dienstes von Teams Chats in die Höhe schnellt. Der Sprung auf fast 3 Sekunden erfolgt sofort, während der Nachrichten-API-Dienst (dunkelblaue Linie) ebenfalls zuzunehmen beginnt. Dies dauert bis ca. 23.00 Uhr MESZ (22.00 Uhr UTC), wenn die Leistung des Dienstes schließlich normale Antwortzeiten erreicht.

Andere Dienste wie Sign-In scheinen nicht betroffen zu sein.

Nord-Amerika

Für Nordamerika sieht das Bild noch ernster aus. Fast eine Stunde später, um 16.00 Uhr UTC (10.00 Uhr EST), sind die Auswirkungen im Vergleich zu Europa sofort viel stärker. Die Antwortzeiten für Teams-Nachrichten betrugen bis zu 19 Sekunden. Das geht stundenlang so weiter. Sogar mit einem zweiten Aufflackern zu dem Zeitpunkt, an dem die Probleme in der EU abzuflauen scheinen. Bis die Probleme in den USA gegen 1:30 Uhr UTC (7:30 Uhr EST) endlich behoben sind

Schnelles Erkennen wo das Problem liegt

Wenn die Benutzer Probleme bemerken, rufen sie den Support an und die Administratoren beginnen mit der Untersuchung. Zu diesem Zeitpunkt ist OfficeExpert TrueDEM bereits bekannt, wie oben abgebildet. Lange bevor Microsoft über seine Kanäle etwas bestätigt.

Innerhalb von 5 Minuten nach dem Anstieg der Reaktionszeit zeigt OfficeExpert TrueDEM auf der Seite Environment Health den Rückgang der Serviceleistung an. Es wird hervorgehoben, dass die Auswirkungen auf die API erheblich sind. Der Rückgang wird noch deutlicher, wenn die Auswirkungen auf der US-Seite spürbar werden. Nur 8 von 100 Punkten (dies entspricht dem normalerweise erwarteten Zustand für Benutzer, die Teams in dieser Organisation verwenden). Dies ist ein deutlicher Hinweis darauf, dass etwas im Gange ist, das sich auf die meisten, wenn nicht sogar alle Benutzer im Unternehmen auswirkt. Außerdem wird deutlich, dass das Problem von der Microsoft-Seite (API) ausgeht. Nicht auf der Authentifizierungs- und der Netzwerkseite, die beide noch normale Werte (100) aufweisen.

Microsoft sendet dann 45 Minuten später seinen ersten Vorfallsbericht. Dies wird sofort auf der Microsoft Health-Seite in OfficeExpert TrueDEM angezeigt. Auf dieser Seite zeigt OfficeExpert TrueDEM alle von Microsoft gemeldeten Vorfälle und Warnungen an, die für die jeweilige Organisation relevant sind. Hinzufügen der Microsoft Incident Updates, sobald sie veröffentlicht werden, in einer konzentrierten und leicht navigierbaren Übersicht, bis das Problem 2 Tage später von Microsoft geschlossen wird:

Unterm Strich

Jede Störung von Microsoft Teams kann erhebliche Auswirkungen auf den Betrieb von Unternehmen haben. Durch die Möglichkeit, schnell zu erkennen, dass das Problem mit der Microsoft-API zusammenhängt, konnten Administratoren, die OfficeExpert TrueDEM verwenden, sofort erkennen, dass die Ursache wahrscheinlich in der Microsoft-Cloud selbst liegt. Vermeidung von unnötiger Ursachenforschung. Da sie sich auf bestimmte Netze und Internetdiensteanbieter konzentrierten, konnten sie sogar verfolgen, wie die Dienste zuerst in Europa und später in den USA wiederhergestellt wurden.

  • Das Problem wurde zuerst in Europa bemerkt und hatte unter anderem große Auswirkungen auf die Antwortzeiten von Chats und Nachrichten.
  • In Nordamerika trat das Problem fast eine Stunde später auf, aber dort waren die Auswirkungen noch gravierender: Die Antwortzeiten betrugen bis zu 19 Sekunden und dauerten viel länger.
  • OfficeExpert TrueDEM sah und meldete das Problem 42 Minuten, bevor Microsoft den Vorfall über seinen Service Health bestätigte, und 1:45 Stunden, bevor sie den ersten Tweet über X versendeten.
  • Mit OfficeExpert TrueDEM waren Administratoren in der Lage, die Auswirkungen der laufenden Schadensbegrenzung von Microsoft auf ihre spezifische Organisation und ihre Benutzer in verschiedenen Regionen viel direkter zu sehen als das, was von Microsoft über seine X- und Service Health-Kanäle kommuniziert wurde.