Clique e receba as novidades quentinhas no Telegram

No início deste mês, um raio causou danos em um dos data centers da Microsoft que abrigam os serviços do Azure, no sul do Texas, e fez com que uma parte da força que alimenta os data center fosse transferida da concessionária para um gerador.

O evento fez com que os sistemas de refrigeração do data center falhassem. Isso causou temperaturas excessivas que, em última instância, poderiam danificar alguns servidores de armazenamento, dispositivos de rede e unidades de energia. À medida que os funcionários responsáveis pela restauração do sistema trabalhavam para manter a integridade dos dados dos clientes e para recuperar os sistemas diretamente afetados pelas tempestades, os efeitos secundários dessa interrupção específica afetaram uma ampla gama de outros serviços em nuvem em outras regiões. 

Resultado de imagem para azure data centers 2018

Regiões onde os data centers do Azure estão presentes

Enquanto as tempestades ainda estavam ativas na área, as equipes locais tomaram uma série de ações para evitar mais danos. Para iniciar a recuperação da infraestrutura, a primeira etapa foi recuperar os SLBs (Balanceadores de carga de software do Azure) para unidades de escala de armazenamento. Os serviços SLB são essenciais na pilha de rede do Azure, gerenciando o roteamento do tráfego de serviço do cliente e da plataforma. 

A segunda etapa foi recuperar os servidores de armazenamento e os dados nesses servidores. Isso envolveu a substituição de componentes de infraestrutura com falha, a migração de dados de clientes dos servidores danificados para servidores íntegros e a validação de que nenhum dos dados recuperados estava corrompido. Esse processo levou algum tempo devido ao número de servidores danificados, e a necessidade de trabalhar com cuidado para manter a integridade dos dados do cliente acima de tudo. A decisão foi tomada para trabalhar em direção à recuperação de dados e não ao fail over para outro data center, uma vez que um fail over resultaria em perda limitada de dados devido à natureza assíncrona da replicação geográfica.

Apesar das redundâncias no local, há cenários em que uma falha de resfriamento do data center pode afetar as cargas de trabalho do cliente no data center afetado. Infelizmente, esse conjunto específico de problemas também causou um impacto em cascata nos serviços fora da região. Clientes brasileiros podem não ter percebido a falha, pois o impacto por aqui foi pequeno, mas em outras regiões o impacto pode ter sido mais “notável”. 

Por mais que saibamos que a palavra Nuvem é sinônimo de confiabilidade, é bom saber que a “Nuvem” existe fisicamente e ela está contida justamente nesse grandes data centers, como o da Microsoft no Texas, então, ela pode sim falhar, pode sim apresentar problemas e pode sim haver perda de dados. Por mais segura que ela seja, grandes catástrofes ou eventualidades como essa podem sim colocar em risco seus dados, mesmo que a chance seja mínima. Enfim, a Nuvem por colapsar e falhar.

Então, não devemos confiar na Nuvem? Como no Onedrive, Google Drive, iCloud, etc? Devo passar a fazer dois backups, um na Nuvem e um localmente, como era feito antigamente? Não necessariamente. Por hora, não há razão para fazer alarde nem correr numa loja para comprar um HD Externo. A discussão que queremos abrir é que empresas como a Microsoft, Google, IBM, Amazon e muitas outras que tem investido pesado em serviços em Nuvem e elas precisam ser ainda mais cautelosas quando o assunto é a proteção FÍSICA dos dados, afinal de contas, a Nuvem é só um termo metafísico, já que os dados são guardados fisicamente em algum lugar, que são os data centers. Então caros amigos, seus dados estão salvos, mas a noção de que a Nuvem existe de verdade precisa vir a tona para que o entendimento seja mais claro.

Ainda bem que neste caso em específico a Microsoft tomou todas as medidas necessárias que culminaram na solução do problema sem danos aos dados de seus clientes. E vale lembrar que qualquer uma das empresas citadas aqui possuem seus próprios data centers que estão sujeitos aos mesmos riscos, esse não é um problema que só a Microsoft pode passar.

Fonte: Microsoft