Letzte Woche waren mehrere Unternehmen weltweit von einem Ausfall von Office 365 betroffen. Der Exchange Online-Dienst war mehrere Stunden lang nicht vollständig verfügbar. Einige konnten nicht auf ihre Postfächer zugreifen und bei anderen war die Leistung der Postzustellung (Senden/Empfangen) einfach schlecht.

Brr! Hier ist es…

Die Folgen sind offensichtlich. Produktivitätsverlust, schlechte Benutzererfahrung, verstärkte Frustration der Endbenutzer, Verlust der Geschäftsgeschwindigkeit und Verlust des Vertrauens. Und das sind nur ein paar der vielen möglichen geschäftskritischen Auswirkungen.

Microsoft 365 outage map (Source: Downdetector)

Interessanterweise wurde der Fall, unter dem dieser Vorfall protokolliert wurde (EX172491), in der Zwischenzeit von Microsoft entfernt.

Wir alle wissen, dass die Nutzung von Cloud-Diensten mit einem gewissen Risiko verbunden ist. Eine wichtige Frage bleibt jedoch immer bestehen: Wie gut sind Sie vorbereitet, wenn so etwas in Ihrem Unternehmen passiert? Oder mit anderen Worten: Was ist Ihr Notfallplan?

In der Tat eine grundlegende Frage für viele Endbenutzer, Administratoren und Unternehmen, die sich täglich auf stabile, leistungsstarke Cloud-Angebote verlassen.

Gehen Sie auf die sichere Seite

Die Überwachung Ihrer Office 365-Installation ist ein wichtiger erster Schritt, um die Informationen, die Sie über Ihre Unternehmensanwendungen benötigen, in Echtzeit zu erhalten. Sie können einen lebenswichtigen Teil Ihrer Anwendungsinfrastruktur nicht effektiv verwalten, wenn Sie nicht wissen, wie sie funktioniert. Frühzeitige Insights zur Verfügbarkeit helfen Ihnen, sich auf Ausfälle vorzubereiten.

Zu wissen, wer betroffen ist, ist ein wichtiges Element zur Steuerung des Problems (z.B. Benachrichtigung Ihrer Endbenutzer). Ob nur eine Gruppe von Personen, eine Untergruppe von Benutzern (falls die Multi-Geo-Funktionen von Office 365 genutzt werden) oder das gesamte Unternehmen, das den Cloud-Mieter nutzt.

Mit OfficeExpert bieten wir eine Lösung, die Ihnen hilft, das Ausmaß der möglichen Auswirkungen zu erkennen.

Außerdem konnten Unternehmen mit dem Mail Flow Simulation Sensor von OfficeExpert feststellen, dass das System irgendwie wiederhergestellt wurde (der Zugriff auf das Postfach funktionierte wieder). Sie hätten auch sehen können, dass der zugrunde liegende Dienst des Versendens/Empfangens von Mails durch den Vorfall dennoch beeinträchtigt wurde. Der folgende Screenshot zeigt, dass die Postlaufzeit zwischen dem 23. und dem 26. Januar stetig angestiegen ist.

Outage pattern (Source: OfficeExpert)

Sorgen Sie für eine solide Business Continuity für Ihre Endbenutzer

Diese Transparenz hilft Ihnen zu erkennen, dass ein bestimmter Dienst nicht vollständig wiederhergestellt ist. Es hilft Ihnen auch zu verstehen, wie Sie entsprechend planen und kommunizieren können. Davon profitiert am Ende natürlich auch der Endverbraucher.

Die Überwachung von Benachrichtigungen stellt sicher, dass Sie der Erste sind, der von einem Problem erfährt. Noch bevor Microsoft Stunden später darüber twittert. Wenn Sie wissen, welche Dienste betroffen sind, können Sie proaktiv arbeiten, indem Sie Ihre Benutzer benachrichtigen und Notfallpläne anwenden, bevor Sie mit Benutzertickets überschwemmt werden.

UPDATE: Weitere Ausfälle am 29. Januar!

Ein weiterer größerer Ausfall ereignete sich am 29. Januar 2019, als sich Benutzer nicht mehr authentifizieren und auf Office 365-Dienste zugreifen konnten. Auch Azure war von diesem Vorfall betroffen. Die Ursache, die von Microsoft mitgeteilt wurde, war ein DNS-Problem mit CenturyLink als internem DNS-Anbieter.

Der folgende Screenshot zeigt, wie OfficeExpert diesen Ausfall gesehen und gemessen hat. Der Skype for Business Service hatte eine Ausfallzeit von fast 3 Stunden. Andere Dienste wie Exchange Online waren für etwa 1 Stunde beeinträchtigt. Die Fehleranzeige (Fehlermeldung im Screenshot) besagt, dass ein bestimmter vollqualifizierter Domänenname nicht aufgelöst werden konnte. Dies stimmt genau mit der von Microsoft angegebenen Ursache überein.

Office 365 Outage Jan. 29, 2019 (Source: OfficeExpert)

UPDATE: O365-Ausfall am 2. Mai!

Am 2. Mai um 10:10pm MESZ (1:10pm PST) hat Microsoft die folgende Nachricht verschickt: Wir sind uns eines Problems bewusst, das den Zugriff auf SharePoint und OneDrive beeinträchtigt, und untersuchen es. Weitere Einzelheiten finden Sie im Admin-Center unter SP178746 und OD178975.

Zunächst war Microsoft nicht in der Lage, Informationen an seine Community weiterzugeben. Nutzer weltweit waren gezwungen, sich an die Gerüchteküche der sozialen Medien zu wenden, um herauszufinden, warum sie Probleme hatten. Zu den Kerndiensten, die sich negativ auf die Produktivität auswirkten, gehörten Azure, mehrere Microsoft 365-Dienste, Dynamics und DevOps.

Auf dem Screenshot unten sehen Sie, dass OfficeExpert um 21:50 Uhr MESZ eine Störung festgestellt hat. Das war ganze 20 Minuten bevor die erste Microsoft-Mitteilung gesendet wurde.*

SharePoint, Azure, Office 365 Outage May. 2, 2019 (Source: OfficeExpert)

Wir sind sehr zufrieden mit dem positiven Feedback, das wir von unseren Kunden erhalten haben, die OfficeExpert nutzen. Sie waren in der Lage, den globalen Ausfall der zugehörigen Unterdienste selbst zu erkennen, bevor er öffentlich gemacht wurde.

Das war wie bei dem weltweiten Azure-Ausfall im Januar, als es über 1 Stunde dauerte, bis die Office 365-Dienste wiederhergestellt waren. Auch hier stellt sich die Frage, wie Sie die Auswirkungen von Cloud-Ausfällen auf Ihr Unternehmen am besten minimieren können.

Mehr zu diesem Thema erfahren Sie in unserem White Paper. Für Deutschsprachige ist vielleicht auch das Webinar mit MVP Michael Greth und Stefan Fried über das Verhalten bei einem Cloud-Ausfall interessant.

* nach öffentlich zugänglichen Quellen