Incidente global da Cloudflare expõe dependência de edge e rede

A Cloudflare sofreu uma interrupção que afetou tráfego em 19 data centers, incluindo locais de grande peso na malha global da empresa. O incidente começou às 06:27 UTC; o primeiro data center voltou às 06:58 UTC e todos estavam operando corretamente às 07:42 UTC, segundo o relatório publicado pela companhia.¹

A empresa afirma que a falha não foi ataque nem atividade maliciosa. A causa foi uma mudança de configuração de rede ligada a um projeto de resiliência em locais de alto tráfego. O detalhe torna o caso especialmente relevante: a mudança fazia parte de uma iniciativa para melhorar disponibilidade, mas acabou concentrando impacto em uma camada crítica da arquitetura.

Quando um provedor de edge cai, o efeito não fica confinado ao próprio painel. Sites, APIs, serviços de segurança, DNS, aplicações corporativas e experiências de usuário em várias regiões podem falhar ao mesmo tempo.

Uma alteração pequena atravessou o backbone

O relatório descreve a arquitetura Multi-Colo PoP, usada em 19 data centers de grande movimento, com uma camada adicional de roteamento em malha. Essa arquitetura permite manutenção e isolamento mais flexíveis, mas também concentra volume importante de tráfego. Embora esses locais representem pequena fração da rede total, eles carregam proporção significativa das requisições.

Durante a implantação de mudanças em políticas de anúncio de prefixos, uma reordenação de termos fez a Cloudflare retirar um subconjunto crítico de prefixos. Em BGP, retirar prefixos significa deixar de anunciar caminhos para determinados endereços. O resultado foi perda de conectividade para os locais afetados e dificuldade adicional para os próprios engenheiros acessarem os roteadores e reverterem a configuração.

O erro específico envolveu termos de política que ficaram atrás de uma regra explícita de rejeição. A consequência prática foi parar de anunciar prefixos site-local, prejudicando o acesso direto às localidades impactadas e a capacidade dos servidores de alcançar origens. Sistemas internos de balanceamento também foram afetados, sobrecarregando clusters menores.

Resiliência precisa falhar em partes menores

O ponto mais importante não é que configurações de rede falham. Isso é conhecido por qualquer equipe que opera infraestrutura em escala. O ponto é que o processo de mudança não limitou suficientemente o raio de impacto antes de alcançar todos os locais com a nova arquitetura.

A Cloudflare lista ações de correção em processo, arquitetura e automação. Entre elas estão procedimentos específicos para MCP, redesenho da política que permitiu a ordenação incorreta, rollout com etapas mais seguras e rollback automático com commit-confirm. São respostas técnicas para um problema que também é de governança: mudanças perigosas precisam de ambientes de teste representativos e travas que impeçam propagação rápida demais.

Para clientes, o incidente reforça a necessidade de entender dependências de edge. Usar Cloudflare, Fastly, Akamai ou qualquer provedor equivalente melhora segurança, desempenho e disponibilidade, mas também cria concentração. Planos de contingência precisam considerar DNS, cache, WAF, origem, failover, status pages e comunicação quando a própria borda está indisponível.

O caso também lembra que resiliência não é característica estática. Uma arquitetura nova pode ser mais robusta na maioria dos dias e ainda introduzir modos de falha diferentes. A disciplina operacional precisa acompanhar a mudança: blast radius menor, validação automática, rollback rápido e observabilidade que mostre impacto antes que a internet inteira perceba.

Cloudflare Blog, "Cloudflare outage on June 21, 2022", 21 jun. 2022. ↩