Cloudflare Outage • 2025

Caso Cloudflare 2025 — Autopsia de una caída global de internet

Análisis técnico y estratégico de la mayor caída de Cloudflare desde 2019, con impacto directo sobre IA, comercio electrónico y servicios públicos críticos.

Idioma / Language:
Modo:

Resumen ejecutivo

En una frase: El 18 de noviembre de 2025, un cambio de permisos en una base de datos de Cloudflare provocó que un archivo crítico de gestión de bots creciera por encima de los límites previstos; al distribuirse a toda la red, este archivo hizo fallar los proxies que protegen a ~20% de los sitios del mundo, causando horas de errores 5xx en servicios como ChatGPT, X/Twitter, plataformas de pago y sitios de gobierno.
Qué pasó Caída global de Cloudflare, con picos masivos de errores HTTP 5xx que afectaron a miles de servicios que dependen de su red (CDN, WAF, Bot Management, DNS y reverse proxy).
Causa raíz Un cambio de permisos en un clúster de base de datos generó un archivo de “features” de bots demasiado grande. Ese archivo superó los límites previstos en el software de proxy y lo hizo fallar repetidamente en todos los nodos donde se desplegó.
No fue un ataque Aunque los síntomas parecían un mega-ataque DDoS, el postmortem confirma que no hubo ciberataque, sino un bug interno + diseño con límites mal gestionados y despliegue automatizado.
Impacto Servicios de IA, comercio electrónico, transporte, reguladores financieros y sitios de gobierno quedaron parcial o totalmente inaccesibles durante varias horas, con “resaca” técnica que se extendió más allá de la ventana crítica.

Contexto: por qué cuando cae Cloudflare parece que “se rompe internet”

Cloudflare no es sólo un CDN: es una plataforma global que combina distribución de contenido, protección anti-DDoS, firewall de aplicaciones, DNS gestionado y reverse proxy. Aproximadamente una quinta parte del tráfico web mundial pasa, directa o indirectamente, por su red.

Eso significa que cuando Cloudflare se cae, no se cae “un sitio”, sino una capa entera del ecosistema: IA generativa (ChatGPT, otros LLM expuestos vía web), herramientas de productividad, tiendas online, gateways de pago y servicios públicos.

Una forma intuitiva de verlo: Cloudflare es el vigilante de la discoteca. La discoteca (el servidor de la empresa) puede estar bien, con espacio disponible, pero si el vigilante se vuelve loco y no deja entrar a nadie, para el usuario el sitio “está caído”.

CDN global WAF / Bot Management Anti-DDoS DNS & Proxy

Cronología del incidente

La cronología combinada de postmortem + observación de clientes se puede resumir así (horas aproximadas):

  • 11:20 UTC (~6:20 a.m. Miami) – La red de Cloudflare comienza a presentar fallas importantes en la distribución del tráfico. Se dispara el volumen de errores HTTP 5xx.
  • Minutos siguientes – Monitores de terceros y redes sociales detectan que servicios como X/Twitter, ChatGPT, plataformas de IA y varios sitios críticos empiezan a devolver errores.
  • 11:20–14:30 UTC – Ventana de impacto fuerte. Cloudflare intenta mitigar el problema; los gráficos muestran picos de errores, caídas parciales y reapariciones del fallo.
  • 14:30 UTC (~9:30 a.m.) – Se identifica correctamente el problema del archivo de características (feature file) sobredimensionado y se detiene su propagación, reemplazándolo por una versión anterior.
  • 14:30–17:06 UTC – La red se va estabilizando. Se reduce la sobrecarga en distintas zonas mientras el tráfico normal regresa.
  • 17:06 UTC (~12:06 p.m.) – Cloudflare declara que todos sus sistemas funcionan con normalidad, aunque muchos usuarios siguen notando “resaca” (fallos intermitentes, caches no actualizados) durante varias horas más.

Causa raíz técnica: el archivo de features de bots

4.1. Qué es el “feature file” de gestión de bots

Cloudflare mantiene un sistema de gestión de bots (Bot Management) que:

  • Detecta patrones de tráfico sospechosos (bots maliciosos, scrapers, intentos de DDoS).
  • Distingue entre humanos reales, bots “buenos” (indexadores, crawlers) y bots maliciosos.
  • Se basa en un conjunto de “características” (features) que se actualizan constantemente.

Esas características se empaquetan en un archivo de features que se distribuye a los nodos de la red de Cloudflare y se regenera cada pocos minutos para reflejar nuevas amenazas detectadas.

4.2. El cambio de permisos que lo desencadena todo

En un clúster de base de datos se realiza un cambio de permisos con la intención de mejorar la gestión interna. Como efecto colateral no previsto:

  • La consulta que genera el archivo de características empieza a devolver registros de forma diferente.
  • Ese cambio provoca que el archivo crezca mucho más de lo previsto (duplicación de información, aumento de filas, etc.).
  • El nuevo archivo resultante supera los límites de tamaño/memoria que el software de proxy estaba preparado para manejar.

4.3. Efecto en los nodos de la red

Cada nodo de la red de Cloudflare que recibe el archivo sobredimensionado intenta cargarlo en el proceso que maneja Bot Management y el proxy. Al sobrepasar los límites:

  • El módulo encargado de manejar bots entra en fallo.
  • En muchos casos, el fallo impacta al proxy que enruta el tráfico web, devolviendo errores 5xx a los usuarios finales.
  • Como el archivo se regenera cada pocos minutos, el problema reaparece una y otra vez, incluso después de mitigaciones temporales.

¿Fue un ataque? Diferencia entre DDoS y bug interno

Los primeros síntomas (errores 5xx masivos, comportamiento errático) son típicos de un ataque de denegación de servicio distribuido (DDoS), donde un atacante envía grandes cantidades de tráfico para saturar un servicio.

Sin embargo:

  • No hubo ataque DDoS que derribara a Cloudflare.
  • No se detectó actividad maliciosa que explicara el patrón de fallas.
  • El origen fue un cambio de permisos que disparó un bug latente en el pipeline que genera el archivo de características de bots.

Es decir, el incidente no fue consecuencia de que “la seguridad de Cloudflare fallara frente a un atacante externo”, sino de un fallo de ingeniería interna y de gobierno de cambios.

Impacto visible y efectos colaterales

6.1. Servicios afectados

Entre los servicios que se reportaron con problemas durante la caída se incluyen:

  • Plataformas de IA y chat (incluyendo ChatGPT y otros modelos expuestos vía web).
  • Redes sociales (como X/Twitter, entre otras que usan Cloudflare para WAF/DNS/CDN).
  • Tiendas online, soluciones de comercio electrónico y pasarelas de pago.
  • Servicios públicos y de transporte (páginas de transporte regional, reguladores y organismos oficiales en varios países).

6.2. Duración y “resaca” técnica

Aunque el tráfico principal se declaró “en gran medida normal” alrededor de las 14:30 UTC, y los sistemas “completamente normalizados” a las 17:06 UTC, muchos usuarios siguieron notando:

  • Errores esporádicos al acceder a sitios que dependen de Cloudflare.
  • Inconsistencias por caches, proxies intermedios y rutas que tardan más en actualizarse.
  • Reportes de caída de servicios “horas después” de la supuesta resolución oficial.

Lecciones de arquitectura y operación

Idea clave: los incidentes modernos de gran escala muchas veces no se deben a ataques externos, sino a cambios internos (permisos, configuraciones, despliegues automáticos) que disparan bugs latentes en sistemas que ya son muy complejos.
  • Gestión de cambios crítica: cambios en permisos, esquemas y consultas de datos deben pasar por pipelines de validación tan rigurosos como el código de producción.
  • Límites explícitos y observables: archivos de configuración, modelos y artefactos deberían tener validaciones de tamaño estrictas, con alertas tempranas y rechazo automático si se salen de rango.
  • Fail-open vs fail-closed: en módulos como gestión de bots, puede ser preferible degradar la seguridad (fail-open parcial) antes que provocar una caída total del servicio (fail-closed duro).
  • Reducción del blast radius: aislar mejor los componentes (por ejemplo, que un fallo en Bot Management no pueda tumbar el proxy principal que sirve el tráfico HTTP).
  • Observabilidad profunda: dashboards que crucen errores 5xx, despliegues de configuración, tamaño de archivos críticos y cambios de permisos ayudan a detectar este tipo de bucles (“arreglo → se vuelve a romper”) mucho más rápido.