El viernes pasado, Microsoft Teams sufrió una interrupción que fue sentida por organizaciones y usuarios de todo el mundo. Afectando muchas características de la aplicación Teams y haciendo que el uso de la aplicación sea prácticamente inútil. Microsoft confirmó que había problemas con las API de Teams a través de su página de estado del servicio. 4:42 pm CEST (3:42 p. m. UTC). Y casi una hora después a las 5:45 pm CEST (4:45 UTC), Microsoft también confirma el problema en su cuenta X (Twitter):

A continuación aparecen varias actualizaciones que indican acciones de mitigación por parte de Microsoft:

Finalmente informando:

¿Cuál fue el problema?

En uno de los informes de actualización, Microsoft menciona esto:
"Nuestra revisión de la telemetría del servicio indica una parte de la infraestructura de la base de datos que facilita múltiples API está experimentando un problema de red, resultando en impacto. Continuamos nuestra investigación para aislar la causa subyacente del problema de la red y desarrollar acciones correctivas”.

¿Cómo surgió OfficeExpert TrueDEM informar sobre este incidente?

EMEA

Si observamos una organización con oficinas en Europa y EE. UU., podemos ver que casi dos horas antes de que Microsoft envíe el mensaje en X y 45 minutos antes de que llegue el primer informe de incidente para reconocer que algo está sucediendo. OfficeExpert TrueDEM ya lo ha visto. Alrededor de las 4 p. m. CEST (3 p. m. UTC) UTC comienza a indicar que el tiempo de respuesta del servicio API Teams Chats se dispara. Saltando a casi 3 segundos inmediatamente mientras que el servicio API de Mensajes (línea azul oscuro) también comienza a aumentar. Esto dura hasta alrededor de las 11 CEST (10:XNUMX UTC), cuando los niveles de rendimiento del servicio finalmente alcanzan los niveles normales de tiempos de respuesta.

Otros servicios como el inicio de sesión no parecen haberse visto afectados. 

Norteamérica

Para América del Norte, el panorama parece aún más grave. A partir de casi una hora más tarde, a las 4 p. m. UTC (10 a. m. EST), inmediatamente muestra un impacto mucho mayor en comparación con Europa. Provocando tiempos de respuesta para Mensajes de Teams de hasta 19 segundos. Esto continúa durante horas. Incluso muestra un segundo estallido en el momento en que los problemas en la UE parecen disminuir. Hasta que los problemas finalmente se resuelvan en los EE. UU. alrededor de la 1:30 a. m. UTC (7:30 p. m. EST)

Identificar rápidamente el área de responsabilidad

A medida que los usuarios empiezan a notar problemas, empiezan a llamar al soporte y los administradores empiezan a investigar. En ese momento, OfficeExpert TrueDEM ya es consciente como se muestra arriba. Mucho antes de que Microsoft reconozca algo a través de sus canales.

Dentro de los 5 minutos posteriores al aumento en el tiempo de respuesta, OfficeExpert TrueDEM comienza a mostrar la disminución del rendimiento del servicio en su página de Salud Ambiental. Resaltando que hay un impacto considerable en la API. El declive se vuelve aún más evidente a medida que comienza a notarse el impacto en el lado estadounidense. Con una puntuación de solo 8 sobre 100 (lo que representa el estado normalmente esperado para los usuarios que utilizan Teams en esta organización). Esto indica claramente que algo está sucediendo que afecta a la mayoría, si no a todos, los usuarios de la organización. Además, señala que el problema se origina en el lado de Microsoft (API). No en los lados de Autenticación y Red, que todavía tienen una puntuación normal (100).

Luego, Microsoft envía su informe inicial del incidente 45 minutos después. Esto se refleja inmediatamente en la página de Microsoft Health en OfficeExpert TrueDEM. En esta página OfficeExpert TrueDEM muestra todos los incidentes reportados por Microsoft y las alertas relevantes para la organización específica. Agregar las actualizaciones de incidentes de Microsoft a medida que se publican en una descripción general enfocada y fácilmente navegable hasta que Microsoft resuelva el problema 2 días después:

Resumen Final

Cualquier perturbación en Microsoft Teams puede tener un impacto importante en las operaciones de las organizaciones. Ser capaz de identificar rápidamente que el problema estaba relacionado con la API de Microsoft hizo posible que los administradores usaran OfficeExpert TrueDEM para ver de inmediato que la causa probable estaba en la propia nube de Microsoft. Eliminar investigaciones innecesarias sobre posibles causas. Centrándose en redes específicas y en ISP, podrían incluso realizar un seguimiento a medida que los servicios se restablecieran en Europa primero y en EE. UU. después.

  • El problema se notó por primera vez en Europa y tuvo un gran impacto, entre otros, en los tiempos de respuesta de chats y mensajes.
  • El problema llegó a Norteamérica casi una hora después, pero el efecto allí fue aún más grave, con tiempos de respuesta de hasta 19 segundos y una duración mucho más larga.
  • OfficeExpert TrueDEM vio e informó el problema 42 minutos antes de que Microsoft reconociera el incidente a través de su Service Health y 1:45 horas antes de que enviaran el primer tweet en X.
  • Con OfficeExpert TrueDEM, los administradores pudieron ver los efectos de las mitigaciones en curso de Microsoft para su organización específica y sus usuarios en varias regiones de manera mucho más directa que lo que Microsoft comunicaba a través de sus canales X y de estado del servicio.