Cloud Outage Report AWS vs Azure · Oct 2025

Resumen ejecutivo de dos caídas críticas en menos de 10 días.
Executive summary of two critical outages within 10 days.

Incidente AWS AWS Incident 20 Oct 2025

Región afectada principal: US-EAST-1 (Virginia). Impacto global en apps grandes (Snapchat, Reddit, Alexa).
Primary affected region: US-EAST-1 (Virginia). Global impact on major apps (Snapchat, Reddit, Alexa).

Causa raíz: Falla en la automatización interna de AWS que manipulaba DNS para DynamoDB. Eso generó registros DNS vacíos/no válidos. Sin DNS estable, muchos servicios no podían encontrar sus endpoints.

Root cause: An internal AWS automation system that manages DNS for DynamoDB misbehaved and produced empty/invalid DNS records. With DNS broken, services couldn't resolve endpoints.

Mecanismo de propagación: US-EAST-1 es núcleo de AWS. La caída en esa región cascó hacia miles de aplicaciones externas y SaaS críticos.

Blast radius: US-EAST-1 is a core AWS region. When that region breaks, it cascades into thousands of downstream apps and SaaS platforms.

Duración aproximada: empezó ~3:00 a.m. ET y se fue estabilizando hacia ~6:00 p.m. ET el mismo día.

Approx duration: began ~3:00 a.m. ET and was broadly stabilized by ~6:00 p.m. ET same day.

Lecciones AWS
AWS Lessons
  • No dependas 100% de una sola región crítica (US-EAST-1).
  • Do not bet everything on one critical region (US-EAST-1).
  • Ten fallback DNS / resolución alternativa donde sea posible.
  • Have fallback DNS / alternative resolution when possible.
  • Comunica a usuarios: “hay un problema global de AWS” para proteger tu credibilidad local.
  • Tell your users: “AWS is having a global issue,” to protect local credibility.

Incidente Azure Azure Incident 29 Oct 2025

Infraestructura afectada: Azure Front Door (red global / CDN / routing). Golpeó productos Microsoft (Microsoft 365, Xbox, Copilot) y clientes enterprise.
Infra layer hit: Azure Front Door (global edge / CDN / routing). Broke Microsoft 365, Xbox, Copilot, plus enterprise customers.

Causa raíz: Cambio de configuración inadvertido dentro de Azure que afectó la capa global de enrutamiento/entrega. Eso disparó problemas DNS / disponibilidad en múltiples servicios.

Root cause: An inadvertent configuration change in Azure that impacted the global routing/delivery layer. That triggered DNS / availability issues across multiple services.

Mecanismo de propagación: Azure Front Door es mundial, no solo una región. El error afectó tráfico para Microsoft 365, Xbox Live, Minecraft y hasta aerolíneas (ej. Alaska Airlines reportó caída de web/app).

Blast radius: Azure Front Door is global, not just one region. The bad change impacted traffic for Microsoft 365, Xbox Live, Minecraft and even airlines (Alaska Airlines reported web/app down).

Ventana de impacto conocida: comenzó ~12:00 p.m. ET del 29 Oct 2025 y Microsoft lanzó fix ese mismo día.

Impact window observed: began ~12:00 p.m. ET on Oct 29 2025 and Microsoft pushed a fix same day.

Lecciones Azure
Azure Lessons
  • Control estricto de cambios (“change management”) en capa global es vida o muerte.
  • Global change management = life or death.
  • Necesitas rutas de respaldo (multi-CDN / multi-edge) si tu servicio es público.
  • You need backup routing (multi-CDN / multi-edge) if you're public-facing.
  • Monitorea latencia y disponibilidad desde el punto de vista del usuario final, no solo desde el datacenter.
  • Monitor latency/availability from user POV, not only from the datacenter POV.

Qué hago yo ahora What I should do now Plan

  • Mapear dependencias: ¿mi dashboard / web / training app corre en AWS o Azure? ¿en qué región / qué servicio?
  • Map dependencies: Which region / which service is my dashboard / web / training app actually using?
  • Tener mensaje listo para estudiantes / clientes: “Hay una caída global de proveedor cloud, no es tu Wi-Fi.”
  • Have a message ready for students / clients: “This is a global cloud outage, not your Wi-Fi.”
  • Diseñar redundancia mínima: multi-región (AWS) o multi-edge/CDN (Azure). Aunque sea solo para lo crítico.
  • Design minimal redundancy: multi-region (AWS) or multi-edge/CDN (Azure). Even if only for mission-critical parts.

Resumen Comparativo Side-by-Side Summary AWS vs Azure

Vista rápida de similitudes/diferencias entre los dos incidentes.

Quick view of similarities / differences between the two incidents.

Aspecto Aspect AWS
20 Oct 2025
Azure
29 Oct 2025
Región / Punto crítico Critical zone US-EAST-1 (Virginia) Azure Front Door (Global Edge/CDN)
Tipo de fallo Failure type Automatización interna + DNS DynamoDB Cambio de configuración global (routing/DNS)
Propagación Blast radius Afectó miles de apps externas Afectó servicios Microsoft + clientes enterprise
Lección práctica Practical lesson Multi-región / fallback DNS Control de cambios global + multi-CDN
Mensaje a usuarios Message to users “AWS US-EAST-1 está teniendo problemas, no es tu red.” “Azure routing global está degradado, no es tu red.”

Patrón que preocupa Why this is scary Tendencia

Las dos caídas comparten dos cosas: (1) ambos son problemas internos (no ataque), y (2) ambos rompen la capa “cómo llego al servicio” (DNS / routing global). Eso significa que el punto débil real hoy no siempre es el servidor final, sino la autopista para llegar.

Both outages share two traits: (1) internal mistakes, not an attacker, and (2) they break the “how do I reach the service” layer (DNS / global routing). Translation: the weak point is not always the app, it's the highway to the app.

Para un proyecto comunitario o de training, tú puedes quedar como “el profe / la persona de tecnología confiable” si explicas esto calmado en lenguaje humano.

For community / training projects, you become “the calm tech adult in the room” if you explain this in human language when everyone panics.