Na última sexta-feira, o Microsoft Teams sofreu uma interrupção que foi sentida por organizações e usuários de todo o mundo. Afetando muitos recursos do aplicativo Teams e tornando o uso do aplicativo praticamente inútil. A Microsoft confirmou que houve problemas com as APIs do Teams por meio de sua página Service Health em torno 4:42 CEST (3h42 UTC). E quase uma hora depois, às 5:45 CEST (4h45 UTC), a Microsoft também confirma o problema, em sua conta X (Twitter):

Seguem várias atualizações, indicando ações de mitigação da Microsoft:

Finalmente relatando:

Qual foi o problema?

Em um dos relatórios de atualização, a Microsoft menciona o seguinte:
“Nossa análise da telemetria de serviços indica uma parte da infraestrutura de banco de dados que facilita múltiplas APIs está enfrentando um problema de rede, resultando em impacto. Continuamos nossa investigação para isolar a causa subjacente do problema de rede e desenvolver ações de remediação.”

Como fez OfficeExpert TrueDEM relatar este incidente?

EMEA

Olhando para uma organização com escritórios na Europa e nos EUA, podemos ver que quase duas horas antes da Microsoft enviar a mensagem no X e 45 minutos antes do primeiro relatório de incidente para reconhecer que algo está acontecendo, OfficeExpert TrueDEM já viu. Por volta das 4h CEST (3h UTC) UTC começa a indicar que o tempo de resposta do serviço Teams Chats API dispara. Saltando para quase 3 segundos imediatamente, enquanto o serviço API de mensagens (linha azul escura) também começa a aumentar. Isso dura até por volta das 11h CEST (10h UTC), quando os níveis de desempenho do serviço finalmente atingem níveis normais de tempos de resposta.

Outros serviços como o Sign-In não parecem ter sido afetados. 

América do Norte

Para a América do Norte, o quadro parece ainda mais grave. Começando quase uma hora depois, às 4h UTC (10h EST), mostra imediatamente um impacto muito maior em comparação com a Europa. Causando tempos de resposta para mensagens do Teams de até 19 segundos. Isso continua por horas. Mesmo apresentando um segundo surto na altura em que os problemas na UE parecem desaparecer. Até que os problemas finalmente sejam resolvidos para os EUA por volta de 1h30 UTC (7h30 EST)

Identificando rapidamente a área de responsabilidade

À medida que os usuários começam a notar problemas, eles começam a ligar para o suporte e os administradores começam a investigar. Naquele momento, OfficeExpert TrueDEM já está ciente conforme descrito acima. Muito antes de a Microsoft reconhecer qualquer coisa através de seus canais.

Dentro de 5 minutos após o aumento no tempo de resposta, OfficeExpert TrueDEM começa a mostrar o declínio do desempenho do serviço em sua página Saúde Ambiental. Destacando que há um impacto considerável na API. O declínio torna-se ainda mais evidente à medida que o impacto no lado dos EUA começa a ser notado. Pontuação de apenas 8 em 100 (representando o estado normalmente esperado para usuários que usam o Teams nesta organização). Isso indica claramente que algo está acontecendo impactando a maioria, senão todos os usuários da organização. Ele aponta ainda que o problema se origina no lado da Microsoft (API). Não nos lados de Autenticação e Rede, que ainda apresentam pontuação normal (100).

A Microsoft então envia seu relatório inicial de incidente 45 minutos depois. Isso se reflete imediatamente na página Microsoft Health em OfficeExpert TrueDEM. Nesta página OfficeExpert TrueDEM mostra todos os incidentes e alertas relatados pela Microsoft relevantes para a organização específica. Adicionando as atualizações de incidentes da Microsoft à medida que são publicadas em uma visão geral focada e facilmente navegável até que o problema seja resolvido pela Microsoft 2 dias depois:

ponto de partida

Qualquer perturbação no Microsoft Teams pode ter um grande impacto nas operações das organizações. Ser capaz de identificar rapidamente que o problema estava relacionado à API da Microsoft possibilitou que os administradores usassem OfficeExpert TrueDEM para ver imediatamente que a causa provável estava na própria nuvem da Microsoft. Eliminar pesquisas desnecessárias sobre causas potenciais. Concentrando-se em redes e ISPs específicos, eles poderiam até acompanhar a restauração dos serviços primeiro na Europa e depois nos EUA.

  • O problema foi notado pela primeira vez na Europa, tendo um grande impacto, entre outros, nos tempos de resposta de chats e mensagens.
  • O problema atingiu a América do Norte quase uma hora depois, mas o efeito foi ainda mais grave, com tempos de resposta de até 19 segundos e durando muito mais tempo.
  • OfficeExpert TrueDEM viu e relatou o problema 42 minutos antes de a Microsoft reconhecer o incidente por meio do Service Health e 1:45 horas antes de enviar o primeiro tweet no X.
  • Com o OfficeExpert TrueDEM, os administradores puderam ver os efeitos das mitigações contínuas da Microsoft para suas organizações e usuários específicos em várias regiões de forma muito mais direta do que o que estava sendo comunicado pela Microsoft por meio de seus canais X e de integridade de serviço.