La semana pasada, varias organizaciones de todo el mundo se vieron afectadas por una interrupción de Office 365. El servicio Exchange Online no estuvo completamente disponible durante varias horas. Algunos no podían acceder a sus buzones de correo y, para algunos, el rendimiento de la entrega de correo (envío/recepción) era simplemente deficiente.

¡Guau! Ahí está…

Las consecuencias son obvias. Pérdida de productividad, mala experiencia del usuario final, frustración amplificada del usuario final, pérdida de velocidad comercial y pérdida de confianza. Y eso es solo por nombrar algunos de los muchos posibles impactos críticos para el negocio.

Microsoft 365 mapa de cortes (Fuente: Downdetector)

Curiosamente, el caso en el que se registró este incidente (EX172491) ha sido eliminado por Microsoft mientras tanto.

Todos sabemos que existe cierto riesgo siempre que servicios en la nube son usados. Sin embargo, siempre queda una pregunta clave: ¿Qué tan bien está preparado si algo así le sucede a su organización? O en otras palabras: ¿Cuál es tu plan de copia de seguridad?

De hecho, es una pregunta fundamental para muchos usuarios finales, administradores y empresas que confían diariamente en ofertas de nube estables y de alto rendimiento.

Dé un paseo por el lado seguro

Supervisar la instalación de Office 365 es un primer paso fundamental para obtener la información que necesita sobre las aplicaciones de su empresa en tiempo real. No puede administrar con eficacia una parte de vital importancia de la infraestructura de su aplicación a menos que sepa cómo se está desempeñando. Temprano insights según la disponibilidad lo ayudará a prepararse para los apagones.

Saber quién se ve afectado es un elemento importante para manejar el problema (por ejemplo, notificar a sus usuarios finales). Ya sea solo un grupo de personas, un subconjunto de usuarios (en caso de que se usen las capacidades Multi-Geo de Office 365) o toda la organización que usa el arrendatario de la nube.

Con OfficeExpert ofrecemos una solución que te ayuda a identificar la magnitud del posible impacto.

Además, al utilizar el sensor de simulación de flujo de correo de OfficeExpert, las organizaciones podrían haber visto que el sistema se restauró de alguna manera (el acceso al buzón funcionó nuevamente). Sin embargo, también podrían haber visto que el servicio subyacente de envío/recepción de correos seguía afectado por el incidente. La siguiente captura de pantalla muestra que hubo un aumento constante en el tiempo de entrega del correo entre el 23 y el 26 de enero.

Patrón de interrupción (Fuente: OfficeExpert)

Garantice una continuidad comercial sólida para sus usuarios finales

Esta transparencia lo ayuda a saber que un servicio en particular no se restableció por completo. También lo ayuda a comprender cómo puede planificar y comunicarse en consecuencia. Al final del día, esto naturalmente también beneficia al usuario final.

Supervisar las notificaciones garantiza que usted sea el primero en enterarse de que existe un problema. Incluso antes de que Microsoft tuitee al respecto horas después. Saber qué servicios se ven afectados le permite trabajar de forma proactiva notificando a sus usuarios y aplicando planes de contingencia antes de verse inundado con tickets de usuario.

ACTUALIZACIÓN: ¡Más cortes el 29 de enero!

Otra interrupción importante ocurrió el 29 de enero de 2019, cuando los usuarios no pudieron autenticarse ni acceder a los servicios de Office 365. Azure fue afectado por este incidente también. La causa principal que Microsoft comunicó fue un problema de DNS con CenturyLink como proveedor interno de DNS.

La siguiente captura de pantalla muestra cómo OfficeExpert ha visto y medido este apagón. El servicio de Skype Empresarial tuvo un tiempo de inactividad de casi 3 horas. Otros servicios, como Exchange Online, se vieron afectados durante aproximadamente 1 hora. El indicador de falla (mensaje de error en la captura de pantalla) indica que cierto nombre de dominio calificado completo no se pudo resolver. Esto coincide exactamente con la declaración de causa raíz de Microsoft.

Corte de Office 365 29 de enero de 2019 (Fuente: OfficeExpert)

ACTUALIZACIÓN: ¡Interrupción de O365 el 2 de mayo!

El 2 de mayo a las 10:10 p. m. CEST (1:10 p. m. PST), Microsoft envió el siguiente mensaje: Somos conscientes e investigamos un problema que afecta el acceso a SharePoint y OneDrive. Se pueden encontrar más detalles en el centro de administración en SP178746 y OD178975.

Al principio, Microsoft no pudo enviar ninguna información a sus community. Los usuarios de todo el mundo se vieron obligados a recurrir a las fábricas de rumores de las redes sociales para averiguar por qué tenían problemas. Los servicios básicos que afectaron negativamente la productividad incluyeron Azuremúltiples Microsoft 365 servicios, dinámica y DevOps.

En la captura de pantalla a continuación, se puede ver que OfficeExpert identificó un apagón a las 9:50 p. m. CEST. esto fue un completo 20 minutos antes de que se enviara la primera comunicación de Microsoft.*

compartir punto, Azure, interrupción de Office 365 May. 2, 2019 (Fuente: OfficeExpert)

Estamos muy satisfechos con los comentarios positivos que recibimos de nuestros clientes que utilizan OfficeExpert. Pudieron identificar la interrupción global de los subservicios relacionados por sí mismos antes de que se hiciera público.

Esto fue como el mundo Azure interrupción en enero cuando los servicios de Office 1 tardaron más de 365 hora en restaurarse. Una vez más, surge la pregunta de cuál es la mejor manera de minimizar el impacto de las interrupciones de la nube en su negocio.

Puedes leer más sobre este tema en nuestro white paper. Los hablantes de alemán también pueden estar interesados ​​en escuchar la webinar con el MVP Michael Greth y Stefan Fried sobre qué hacer durante una interrupción de la nube.

* según fuentes disponibles públicamente