A semana passada foi um pesadelo total para os serviços em nuvem da Microsoft. Com várias falhas do sistema causadas por Azure problemas de AD que trouxeram Microsoft 365 de joelhos, seguido por problemas de balanceamento de carga para o Exchange online alguns dias depois, o sistema baseado em nuvem da Microsoft collaboration ambiente mostrou sua falta de resiliência para a complexidade de TI.

Conforme relatado pela Microsoft algumas horas após o início do tempo de inatividade, “… aproximadamente às 19h15 UTC de 15 de março de 2021, um subconjunto de clientes pode enfrentar problemas de autenticação nos serviços da Microsoft, incluindo Microsoft Teams, Office e/ou Dynamics, Xbox Live e o Azure Portal,"A partir do Azure Página de status.

Causa Raiz e Mitigação
Fonte: https://status.azure.com/en-us/status/history/

E então, alguns dias depois, um segundo incidente atingiu a infraestrutura de nuvem da Microsoft, afetando o Exchange Online devido a problemas de balanceamento de carga.

Mensagem de causa raiz Microsoft
Fonte: https://status.azure.com/en-us/status/history/

Estes foram NÃO as primeiras interrupções para o ambiente de nuvem da Microsoft, e eles NÃO serão os últimos. O que as organizações podem fazer para melhorar sua resposta quando a próxima chegar?

Lições aprendidas - esteja preparado para um dia chuvoso

A resposta típica da Microsoft a uma interrupção de serviço é enviar anúncios via Twitter e outros métodos de comunicação fornecendo informações genéricas sobre o problema. Raramente há um indício do impacto nas organizações corporativas hospedadas em diferentes geografias. Em vez disso, as empresas ficam procurando respostas quando essas interrupções ocorrem e são solicitadas a verificar novamente mais tarde.

Mensagem do Twitter por Microsoft 365 Status
Fonte: https://status.azure.com/en-us/status/history/

Para seu crédito, a Microsoft fornece boas informações de status contínuas durante a interrupção, mas os detalhes ainda são genéricos, deixando os clientes se defenderem sozinhos.

E daí se? E se você tivesse um sistema de alerta precoce? E se o seu grupo de TI tivesse alertas que fornecessem os detalhes da interrupção, incluindo QUAIS cargas de trabalho foram afetadas no momento e QUAIS regiões foram afetadas no momento? Com essas informações, você pode agir, notificar os grupos de suporte do Helpdesk e informar seus funcionários para reagendar suas reuniões do Teams.

Durante o recente M365 interrupções de nossos clientes usando OfficeExpert TrueDEM O EPM tinha essa capacidade. Eles tiveram o aviso prévio antes do anúncio da Microsoft e foram capazes de aproveitar o actionable insights a seu favor.

OfficeExpert TrueDEM EPM e as diferenças regionais de interrupção

Enquanto a maioria dos serviços estava inoperante na América do Norte, nossos clientes descobriram que o Exchange online não estava (veja as capturas de tela abaixo). E scomo o Exchange ainda estava em funcionamento, seus grupos de suporte de TI solicitaram que seus funcionários reagendassem suas reuniões do Teams para o dia seguinte e contorne qualquer confusão com parceiros de negócios e clientes.

No geral, houve diferenças com o impacto de M365 disponibilidade do serviço dependendo da sua região geográfica.  OfficeExpert TrueDEM A EPM os identificou e forneceu os detalhes aos nossos clientes 30 minutos antes da Microsoft enviar seus anúncios iniciais.

Perspectiva da América do Norte

As 4 capturas de tela a seguir são de nossos clientes da América do Norte executando OfficeExpert TrueDEM EPM. Você pode ver que a interrupção não teve impacto no serviço Exchange Online (EXO), mas os outros serviços como Teams, OneDrive e SharePoint ficaram totalmente fora de serviço por horas.

Visualização do Analytics para interrupção na América do Norte
Observação: os carimbos de data/hora acima são o horário do leste dos EUA (ET)

Perspectiva Europeia

Para nossos clientes na Europa, eles tiveram uma experiência diferente, pois perderam o acesso ao Exchange (EXO), bem como as outras cargas de trabalho principais. A disponibilidade do Microsoft Teams foi afetada primeiro, seguida pelo OneDrive e SharePoint e, cerca de uma hora depois, o EXO caiu. Não houve tanto impacto nos negócios porque essas interrupções ocorreram fora do horário comercial em comparação com o tempo de inatividade na América do Norte. Com base nos dados mostrados nos gráficos abaixo, você pode ver que M365 Os serviços estavam todos funcionando por volta das 3h, com alguma disponibilidade menor entre eles.

Europa: Serviço de Equipes Figura 1: Serviço de Equipes
Figura 2: Serviço do Exchange Online
Figura 3: Serviço OneDrive
Figura 4: Serviço do SharePoint Online

Observação: Os carimbos de data e hora acima são o horário da Europa Central (CET)

Invista em um sistema de alerta precoce

Interrupções para M365 ocorrerá novamente, isso foi comprovado ao longo do tempo. Como seus grupos de suporte de TI podem reagir durante essas instâncias imprevisíveis depende de você. Para algumas organizações corporativas, esse tipo de tempo de inatividade é crítico para seus negócios. Eles precisam de informações detalhadas para que possam tomar as melhores decisões para direcionar seus funcionários e parceiros. Saber qual M365 serviços são afetados permite que eles trabalhem proativamente, notificando os usuários finais e aplicando planos de contingência antes de serem inundados com chamadas de helpdesk:

  • Alerte seu helpdesk para preparar instruções detalhadas
  • Alterne para diferentes modos de comunicação durante a interrupção
  • Reagendar reuniões para o dia seguinte
  • Informe os parceiros de negócios e clientes para esperar comunicações atrasadas

Descubra mais…

Se você estiver interessado em saber mais sobre nossos OfficeExpert TrueDEM EPM data analytics solução e como ela pode ajudá-lo a monitorar a disponibilidade do serviço e manter a continuidade dos negócios para seus funcionários, visite nossa página de visão geral em https://www.panagenda.com/products/officeexpert/.

. aceitar cookies de marketing para ver este vídeo.