Route leak BGP envolvendo Verizon derruba partes da internet

A Cloudflare relatou um route leak BGP que afetou grandes partes da internet, incluindo tráfego para seus próprios serviços e para outros provedores.¹ O incidente envolveu a propagação indevida de rotas mais específicas por redes ligadas à DQE Communications, Allegheny Technologies e Verizon, fazendo tráfego global preferir caminhos que não tinham capacidade nem autorização para carregá-lo.

O problema começou com um produto de otimização BGP que dividiu prefixos em partes menores. Dentro de uma rede, anúncios mais específicos podem ser usados para engenharia de tráfego. Quando escapam para a internet global e são aceitos por um grande provedor de trânsito, eles podem se tornar rotas preferenciais para destinos que nunca deveriam passar por ali.

BGP confia demais no vizinho

BGP é o protocolo que ajuda sistemas autônomos a contar uns aos outros como chegar a blocos de IP. Ele sustenta a internet como rede de redes, mas carrega uma premissa delicada: operadores precisam filtrar e validar o que recebem de vizinhos. Quando essa disciplina falha, um erro local ganha escala global.

No caso descrito pela Cloudflare, a Verizon teria propagado rotas que deveriam ter sido filtradas. Como prefixos mais específicos vencem rotas mais gerais, parte do tráfego destinado a Cloudflare, Amazon, Linode e outros serviços passou a seguir por redes incapazes de absorver a demanda. A Cloudflare observou perda de cerca de 15% do tráfego global no pior momento do incidente.

Esse tipo de falha é especialmente frustrante porque não depende de invasão sofisticada. Pode nascer de configuração, produto mal usado, ausência de limites de prefixos ou falta de validação. Para o usuário final, a causa é invisível: sites simplesmente ficam lentos ou indisponíveis, mesmo que servidores e aplicações estejam saudáveis.

RPKI, IRR e limites não são detalhe

A Cloudflare lista medidas conhecidas que poderiam reduzir ou bloquear o impacto: limites rígidos de prefixos por sessão BGP, filtros baseados em Internet Routing Registry e validação de origem por RPKI. Nenhuma delas é conceitualmente nova. A questão é adoção consistente, especialmente por redes grandes que carregam tráfego de muitos clientes.

RPKI é particularmente relevante porque permite validar se uma origem está autorizada a anunciar determinado prefixo e tamanho máximo. Se uma rota mais específica não é válida, roteadores com validação podem descartá-la automaticamente. Isso não resolve todos os erros de roteamento, mas reduz uma classe importante de vazamentos.

Para empresas que dependem de disponibilidade digital, o incidente mostra que resiliência não termina na aplicação. Multi-região, balanceamento, CDN e observabilidade ajudam, mas o caminho BGP até o serviço continua sendo uma dependência crítica. Monitorar rotas, assinar prefixos e cobrar fornecedores de trânsito fazem parte da arquitetura.

A internet precisa de higiene operacional

O route leak envolvendo Verizon e Cloudflare reforça uma verdade incômoda: a internet funciona por coordenação operacional entre organizações com maturidades diferentes. Um ator pequeno, um otimizador agressivo e um provedor grande sem filtro adequado podem afetar usuários no mundo todo.

A resposta não é abandonar BGP, mas melhorar higiene. Operadores precisam validar rotas, aplicar filtros, limitar prefixos, manter contatos de emergência e participar de normas como MANRS. Clientes corporativos precisam perguntar aos seus provedores como esses controles são aplicados, não apenas comprar banda e SLA.

O incidente desta segunda-feira mostra que a resiliência da internet depende tanto de software quanto de disciplina entre redes. Quando o mapa global aceita uma placa errada, o tráfego obedece.

Cloudflare Blog, "How Verizon and a BGP Optimizer Knocked Large Parts of the Internet Offline Today", 24 junho 2019. ↩