Falha na Cloudflare derruba serviços e coloca Bot Management em foco

A Cloudflare publicou a análise da falha que gerou erros 5xx em larga escala e afetou serviços centrais da plataforma. A causa descrita pela empresa foi um arquivo de configuração de features usado pelo Bot Management, gerado com dados incorretos a partir de uma mudança de comportamento em consultas no ClickHouse. O arquivo ficou maior do que o esperado, provocou erro no módulo de bots e atingiu o core proxy responsável por processar tráfego de clientes.¹

O incidente é relevante porque não envolve apenas "um produto de segurança". Bot Management fica dentro do caminho de requisições que passam pela rede da Cloudflare. Quando essa etapa falha, o impacto aparece em CDN, serviços de segurança, Turnstile, Workers KV, Access e login no dashboard. É uma demonstração clara de como uma peça de classificação de tráfego pode se tornar dependência crítica de disponibilidade.

Um arquivo ruim propagado rápido demais

Segundo a Cloudflare, o arquivo de features é atualizado a cada poucos minutos e distribuído rapidamente pela rede. Esse desenho existe por uma boa razão: bots mudam comportamento, e o sistema precisa reagir depressa a novos padrões de abuso. O mesmo mecanismo, porém, amplifica uma configuração ruim quando validações não bloqueiam a publicação.

A falha teve um comportamento inicialmente confuso. Como o arquivo era gerado por uma consulta em um cluster ClickHouse que estava sendo atualizado gradualmente, algumas execuções produziam dados corretos e outras produziam dados ruins. Isso fazia a rede alternar entre recuperação e falha, dando a impressão inicial de possível ataque. Quando todos os nós passaram a gerar o arquivo problemático, o estado de erro se estabilizou.

A mitigação exigiu interromper a geração e propagação do arquivo ruim, inserir manualmente um arquivo conhecido como bom na fila de distribuição e reiniciar o core proxy. O volume de 5xx voltou ao normal após a retomada dos serviços que haviam entrado em estado incorreto.

Segurança no caminho crítico exige circuit breakers

O relatório detalha que toda requisição passa por camadas de HTTP/TLS, core proxy e Pingora, com módulos aplicando WAF, DDoS, roteamento, Developer Platform, R2 e outros recursos. O módulo de Bot Management usa um modelo de machine learning que depende de um arquivo de features. A duplicidade de linhas no arquivo alterou o tamanho esperado e disparou erro no módulo.

Para equipes de plataforma, o incidente reforça uma pergunta dura: o que acontece quando um controle de segurança falha? Se o controle está no caminho síncrono de toda requisição, ele precisa ter validação de schema, limites de tamanho, rollback automático, staged rollout, circuit breaker e modo degradado. Bloquear bots é importante, mas derrubar tráfego legítimo por configuração inválida pode ser mais caro do que operar temporariamente com proteção reduzida.

Clientes também precisam revisar suas próprias dependências. Quando Turnstile falha, logins que dependem dele podem parar. Quando Access falha, autenticações novas são bloqueadas. Quando Workers KV passa pelo mesmo core proxy, aplicações serverless podem devolver erro mesmo que a lógica de negócio esteja correta.

A Cloudflare tratou o caso com transparência técnica ao explicar a cadeia de causa e mitigação. O aprendizado operacional é amplo: sistemas de segurança modernos usam modelos, features e pipelines de dados. Esses pipelines precisam da mesma disciplina de release que qualquer software crítico. Em borda global, uma atualização a cada poucos minutos é poder e risco ao mesmo tempo.

Cloudflare, "Cloudflare outage on November 18, 2025", 18 nov. 2025. ↩