Apagão da Cloudflare: por que a queda afetou a web
Apagão da Cloudflare deixou fora do ar, por cerca de cinco horas na terça-feira (18/11/2025), serviços como ChatGPT, X e milhares de sites em todo o mundo, após uma atualização malsucedida no sistema anti-bot sobrecarregar servidores críticos.
Consulta duplicada derrubou proxy central
A falha teve origem em uma query mal configurada no ClickHouse, banco de dados analítico usado internamente. O comando passou a listar colunas em duplicidade, gerando um arquivo de configuração com o dobro do tamanho normal. Quando esse arquivo corrompido foi distribuído, o proxy que roteia o tráfego global não conseguiu carregar os dados, resultando em erros HTTP 5xx em cerca de 20% da rede.
Por não identificar de imediato a causa, a equipe suspeitou de um ataque DDoS (sobrecarga maliciosa de pedidos). Até a página pública de status saiu do ar, agravando a percepção de crise. O problema só foi isolado às 11h24 (UTC), quando engenheiros substituíram manualmente o arquivo e reiniciaram os serviços.
CEO assume culpa e lista quatro ações preventivas
No comunicado oficial, Matthew Prince, CEO da companhia, classificou a interrupção como “inaceitável” — a pior desde 2019. Ele detalhou quatro medidas para evitar novas quedas:
- Validação reforçada: tratar arquivos internos como “dados externos”, checando formato e tamanho antes da aplicação.
- Botões de emergência globais: mecanismos para desligar, em segundos, qualquer módulo que apresente comportamento anômalo.
- Limite de logs: controle automático de relatórios de erro para não congestionar servidores.
- Testes de caos: simular falhas extremas em módulos críticos, adicionando redundâncias.
Especialistas do setor consideram fundamentais as mudanças, já que a Cloudflare filtra tráfego de mais de 20% da internet. De acordo com análise do The Verge, a dependência de um único ponto de falha torna essas validações emergenciais vitais para a saúde da web.
A companhia também prometeu escalar o dashboard de status e implementar imediatamente os “freios de emergência”.
Numa era em que negócios digitais dependem de alta disponibilidade, casos como este reforçam a importância de redundância e boas práticas de observabilidade. Se você quer acompanhar outras análises sobre o impacto de falhas em infraestrutura, visite nossa editoria de Análise de Tecnologia e continue por dentro dos próximos desdobramentos do setor.
Crédito da imagem: Tecnoblog
Fonte: Tecnoblog