先週の金曜日、Microsoft Teams は機能停止に見舞われ、世界中の組織やユーザーがそれを感じました。 Teams アプリケーションの多くの機能に影響を及ぼし、アプリケーションの使用がほとんど役に立たなくなります。 Microsoft は、サービス正常性ページを通じて Teams API に問題があることを確認しました。 午後4時(中央ヨーロッパ時間) (午後 3 時 42 分 (協定世界時))。そしてほぼXNUMX時間後、 午後5時(中央ヨーロッパ時間) (4:45 UTC)、Microsoft も X (Twitter) アカウントでこの問題を認めています。

Microsoft による緩和策を示す複数の更新が続きます。

最後に報告します:

何が問題でしたか?

Microsoft は更新レポートの 1 つで次のように述べています。
「サービス テレメトリの調査では、データベース インフラストラクチャの一部が次のことを行っていることがわかりました。 複数の API を促進する際にネットワークの問題が発生している、衝撃が生じます。私たちはネットワーク問題の根本的な原因を特定し、修復措置を講じるために調査を続けています。」

どうやって OfficeExpert TrueDEM この事件について報告しますか?

EMEA

ヨーロッパと米国にオフィスを持つ組織を見ると、Microsoft が X にメッセージを送信する 45 時間近く前、何かが起こっていることを認める最初のインシデント レポートが送信される XNUMX 分前であることがわかります。 OfficeExpert TrueDEM はすでに見ています。 CEST 午後 4 時 (協定世界時午後 3 時) 頃、Teams Chats API サービスの応答時間が急増していることが示され始めます。すぐに 3 秒近くに跳ね上がりますが、Messages API サービス (濃い青の線) も同様に増加し始めます。これは、サービス パフォーマンス レベルが最終的に通常レベルの応答時間に達する 11CEST (協定世界時午後 10 時) 頃まで続きます。

サインインなどの他のサービスは影響を受けていないようです。 

北米

北米の場合、状況はさらに厳しいようです。ほぼ 4 時間後の協定世界時午後 10 時 (東部標準時間午前 19 時) に開始すると、すぐにヨーロッパと比較してはるかに大きな影響が現れます。 Teams メッセージの応答時間は最大 1 秒かかります。これが何時間も続きます。 EU 内の問題が沈静化したかに見える頃に、30 回目の再燃さえ見せています。 UTC 午前 7 時 30 分 (EST 午後 XNUMX 時 XNUMX 分) 頃に米国の問題が最終的に解決されるまで

責任範囲を迅速に特定する

ユーザーが問題に気づき始めると、サポートに電話し始め、管理者は調査を開始します。その瞬間に、 OfficeExpert TrueDEM 上に示したように、すでに認識されています。 Microsoft が自社のチャネルを通じて何かを認めるずっと前に。

応答時間の増加から 5 分以内に、 OfficeExpert TrueDEM は、環境の健全性ページにサービス パフォーマンスの低下を表示し始めます。 API に多大な影響があることを強調します。米国側への影響が注目され始めるにつれ、減少はさらに露骨になっている。スコアは 8 点中わずか 100 点です (この組織で Teams を使用しているユーザーに通常予想される状態を表しています)。これは、組織内のすべてのユーザーではないにしても、ほとんどのユーザーに影響を与える何かが起こっていることを明確に示しています。さらに、問題の原因が Microsoft (API) 側にあることが特定されます。認証側とネットワーク側ではそうではなく、どちらもまだ通常のスコア (100) を維持しています。

その後、Microsoft は 45 分後に最初のインシデント レポートを送信します。これは、Microsoft Health ページにすぐに反映されます。 OfficeExpert TrueDEM。このページでは OfficeExpert TrueDEM Microsoft が報告した、特定の組織に関連するすべてのインシデントとアラートを示します。 2 日後に Microsoft によって問題が解決されるまで、焦点を絞った簡単にナビゲートできる概要に Microsoft インシデントの更新情報が投稿されるたびに追加します。

ボトムライン

Microsoft Teams に障害が発生すると、組織の運営に大きな影響を与える可能性があります。問題が Microsoft API に関連していることをすぐに特定できるため、管理者は OfficeExpert TrueDEM 原因が Microsoft クラウド自体にある可能性が高いことがすぐにわかりました。潜在的な原因についての不必要な調査を排除します。特定のネットワークや ISP に焦点を当て、最初にヨーロッパで、その後に米国でサービスが復旧するまで追跡することもできました。

  • この問題はヨーロッパで初めて注目され、チャットやメッセージの応答時間などに大きな影響を及ぼしました。
  • この問題はほぼ 19 時間後に北米に発生しましたが、その影響はさらに深刻で、応答時間は最大 XNUMX 秒で、さらに長く続きました。
  • OfficeExpert TrueDEM Microsoft がサービス ヘルスを通じてインシデントを認識する 42 分前、および X で最初のツイートを送信する 1 時間 45 時間前に問題を確認し、報告しました。
  • OfficeExpert TrueDEM、管理者は、Microsoft が X チャネルやサービス正常性チャネルを通じて伝えている内容よりも、さまざまな地域の特定の組織やユーザーに対する Microsoft の継続的な緩和策の影響をより直接的に確認することができました。