La semana pasada fue una pesadilla total para los servicios en la nube de Microsoft. Con múltiples fallas del sistema causadas por Azure Problemas de AD que trajeron Microsoft 365 de rodillas, seguido de problemas de equilibrio de carga para Exchange en línea unos días más tarde, el servidor basado en la nube de Microsoft collaboration El entorno mostró su falta de resiliencia para la complejidad de TI.

Como informó Microsoft unas horas después de que comenzara el tiempo de inactividad, “… aproximadamente a las 19:15 UTC del 15 de marzo de 2021, un subconjunto de clientes puede experimentar problemas para autenticarse en los servicios de Microsoft, incluidos Microsoft Teams, Office y/o Dynamics, Xbox Live y el Azure Portal," desde el Azure página de estado.

Causa raíz y mitigación
Fuente: https://status.azure.com/en-us/status/history/

Y luego, unos días después, un segundo incidente golpeó la infraestructura de la nube de Microsoft y afectó a Exchange Online debido a problemas de equilibrio de carga.

Mensaje de causa raíz Microsoft
Fuente: https://status.azure.com/en-us/status/history/

Éstas eran NO son las primeras interrupciones del entorno de nube de Microsoft, y NO serán los últimos. ¿Qué pueden hacer las organizaciones para mejorar su respuesta cuando llegue el próximo?

Lecciones aprendidas: prepárese para un día lluvioso

La respuesta típica de Microsoft a una interrupción del servicio es enviar anuncios a través de Twitter y otros métodos de comunicación que brindan información genérica sobre el problema. Rara vez hay un indicio del impacto en las organizaciones empresariales alojadas en diferentes geografías. En cambio, las empresas se quedan buscando respuestas a tientas cuando ocurren estas interrupciones y se les pide que vuelvan a consultar más tarde.

Mensaje de Twitter por Microsoft 365 Status
Fuente: https://status.azure.com/en-us/status/history/

Para su crédito, Microsoft proporciona buena información sobre el estado continuo durante la interrupción, pero los detalles siguen siendo genéricos, lo que deja a los clientes a su suerte.

Entonces, ¿y si? ¿Qué pasaría si tuviera un sistema de alerta temprana? ¿Qué pasaría si su grupo de TI tuviera alertas que proporcionaran los detalles de la interrupción, incluidas QUÉ cargas de trabajo se vieron afectadas actualmente y QUÉ regiones se vieron afectadas actualmente? Con esta información, podría tomar medidas, notificar a los grupos de soporte de Helpdesk e informar a sus empleados para que reprogramen sus reuniones de Teams.

Durante las recientes interrupciones del M365, nuestros clientes que utilizan OfficeExpert TrueDEM EPM tenía esa capacidad. Tuvieron la alerta temprana antes del anuncio de Microsoft y pudieron aprovechar la actionable insights a su favor.

OfficeExpert TrueDEM EPM y las Diferencias Regionales de Cortes

Si bien la mayoría de los servicios estaban inactivos en América del Norte, nuestros clientes descubrieron que Exchange en línea no lo estaba (vea las capturas de pantalla a continuación). Y sDado que Exchange todavía estaba en funcionamiento, sus grupos de soporte de TI instaron a sus empleados a reprogramar sus reuniones de Teams para el día siguiente. y evite cualquier confusión con socios comerciales y clientes.

En general, hubo diferencias con el impacto de la disponibilidad del servicio M365 según su región geográfica.  OfficeExpert TrueDEM EPM los identificó y proporcionó a nuestros clientes los detalles 30 minutos antes de que Microsoft enviara sus anuncios iniciales.

Perspectiva de América del Norte

Las siguientes 4 capturas de pantalla son de nuestros clientes de América del Norte que ejecutan OfficeExpert TrueDEM EPM. Puede ver que la interrupción no tuvo impacto en el servicio Exchange Online (EXO), pero los otros servicios como Teams, OneDrive y SharePoint estuvieron totalmente fuera de servicio durante horas.

Visualización analítica para interrupciones en América del Norte
Nota: Las marcas de tiempo anteriores son Hora del este de EE. UU. (ET)

perspectiva europea

Para nuestros clientes en Europa, tuvieron una experiencia diferente ya que perdieron el acceso a Exchange (EXO), así como las otras cargas de trabajo principales. La disponibilidad de Microsoft Teams se vio afectada primero, seguida de OneDrive y SharePoint, y luego, aproximadamente una hora después, EXO se cayó. No hubo tanto impacto comercial porque estas interrupciones ocurrieron fuera del horario laboral en comparación con el tiempo de inactividad en América del Norte. Según los datos que se muestran en los cuadros gráficos a continuación, puede ver que los Servicios M365 estaban en funcionamiento alrededor de las 3:00 a.m., con una disponibilidad menor en el medio.

Europa: Servicio de Teams Figura 1: Servicio de Teams
Figura 2: Servicio en línea de Exchange
Figura 3: Servicio OneDrive
Figura 4: Servicio en línea de SharePoint

Nota: Las marcas de tiempo anteriores son la hora de Europa Central (CET)

Invierta en un sistema de alerta temprana

Las interrupciones del M365 volverán a ocurrir, eso se ha demostrado con el tiempo. La forma en que sus grupos de soporte de TI pueden reaccionar durante estos casos impredecibles depende de usted. Para algunas organizaciones empresariales, este tipo de tiempo de inactividad es fundamental para su negocio. Necesitan la información detallada para que puedan tomar las mejores decisiones para dirigir a sus empleados y socios. Saber qué servicios de M365 están afectados les permite trabajar de manera proactiva, notificando a los usuarios finales y aplicando planes de contingencia antes de verse inundados con llamadas al servicio de asistencia técnica:

  • Alerte a su servicio de asistencia para preparar instrucciones detalladas
  • Cambiar a diferentes modos de comunicación durante la interrupción
  • Reprogramar reuniones para el día siguiente
  • Informar a los socios comerciales y clientes que esperan comunicaciones retrasadas

Saber más…

Si está interesado en conocer más acerca de nuestros OfficeExpert TrueDEM EPM data analytics solución y cómo puede ayudarlo a monitorear la disponibilidad del servicio y mantener la continuidad del negocio para sus empleados, visite nuestra página de descripción general en https://www.panagenda.com/products/officeexpert/.