AWS: Impactos e Lições do Recente Problema de Rede

Publicidade

Um atraso na propagação do estado da rede impactou um balanceador de carga crítico para a estabilidade dos serviços da AWS. Isso resultou em erros de conexão para clientes na região Leste dos EUA-1, afetando funcionalidades como a criação e modificação de clusters Redshift, invocações Lambda e lançamentos de tarefas Fargate, incluindo fluxos de trabalho para Apache Airflow, operações do Outposts e o AWS Support Center.

Como medida emergencial, a Amazon desativou o DynamoDB DNS Planner e a automação DNS Enactor globalmente. A equipe de engenharia está trabalhando para corrigir uma condição de corrida e implementar proteções contra planos DNS incorretos. Além disso, estão sendo feitas mudanças no EC2 e no balanceador de carga de rede.

Um Alerta para a Nuvem

De acordo com a Ookla, o problema foi agravado pela concentração de clientes que roteiam sua conectividade pelo terminal US-East-1, combinada com a incapacidade de redirecionamento regional. A região US-EAST-1 é o hub mais antigo e mais utilizado da AWS, o que significa que muitas aplicações globais dependem dela para fluxos de identidade, estado ou metadados. Quando uma dependência regional falha, os impactos se espalham globalmente, afetando serviços como Snapchat, Roblox, Signal, Ring e HMRC.

Este incidente destaca a importância de eliminar pontos únicos de falha no design de rede. A solução, segundo a Ookla, não é a falha zero, mas a falha contida, alcançada por meio de projetos multirregionais, diversidade de dependências e preparação disciplinada para incidentes, com supervisão regulatória que trate a nuvem como um componente crítico da resiliência nacional e econômica.

Quais serviços da AWS foram afetados pelo problema de rede?

Foram afetados serviços como clusters Redshift, invocações Lambda, tarefas Fargate, Apache Airflow, operações do Outposts e o AWS Support Center.

Quais medidas a Amazon tomou para resolver o problema?

A Amazon desativou o DynamoDB DNS Planner e a automação DNS Enactor globalmente e está implementando correções para evitar planos DNS incorretos.

Por que o problema na região US-EAST-1 teve um impacto global?

O US-EAST-1 é o hub mais antigo e mais utilizado da AWS, com muitas aplicações globais dependendo dele para fluxos de identidade, estado ou metadados, ampliando o impacto em caso de falha.

Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade