Artículos
27 de noviembre de 2025

El día que la nube se detuvo: qué nos enseñó la caída de AWS

En octubre de 2025, una interrupción masiva en Amazon Web Services paralizó miles de aplicaciones y servicios críticos en todo el mundo, desde plataformas de entretenimiento y redes sociales hasta sistemas financieros y gubernamentales. El origen: un fallo en la resolución interna de DNS que afectó a DynamoDB y desencadenó un efecto dominó sobre servicios esenciales como EC2, Lambda e IAM.

Por: Jaider Jael Morales Torres – Auxiliar de Investigación del Departamento de Derecho, Comunicaciones y Tecnologías de la Información

En la era digital moderna, las plataformas en la nube se han vuelto pilares fundamentales de la infraestructura tecnológica a nivel global. Entre ellas, Amazon Web Services (AWS) se destaca como uno de los proveedores más importantes y potentes: una suite de servicios que permite a empresas, desarrolladores, instituciones y startups acceder, sin necesidad de mantener sus propios centros físicos de datos, a capacidad de cómputo, almacenamiento, bases de datos, inteligencia artificial, redes, y mucho más.

AWS funciona como un conjunto modular. Ofrece servicios como EC2 (servidores virtuales), S3 (almacenamiento), DynamoDB (bases de datos NoSQL), Lambda (funciones sin servidor), y otros más especializados para análisis de datos, machine learning, seguridad, etc. Gracias a esa versatilidad, organizaciones de todos los tamaños pueden construir y escalar aplicaciones de forma ágil, pagando sólo por lo que usan, y sin necesidad de inversiones iniciales en infraestructura física1.

La importancia de sistemas como el de AWS radica en su capacidad para democratizar el acceso a tecnologías avanzadas. Empresas tradicionales pueden trasladar sus operaciones a la nube, mientras que emprendedores y startups pueden lanzar productos sin grandes barreras de entrada tecnológica. Además, muchas instituciones académicas y de investigación utilizan AWS para entrenar modelos de inteligencia artificial, procesar grandes volúmenes de datos y hacer prototipos, lo que potencia la innovación.

AWS se ha consolidado como la infraestructura tecnológica detrás de miles de servicios digitales que millones de usuarios consumen a diario. Empresas globales de alto tráfico, como Epic Games con Fortnite, utilizan AWS para escalar dinámicamente sus servidores y manejar picos masivos de demanda durante eventos y actualizaciones. Plataformas de entretenimiento como Netflix dependen de la nube de Amazon para distribuir contenido, procesar datos de usuarios y garantizar experiencias continuas a nivel mundial.

En el comercio electrónico y las Fintech, compañías como Airbnb, Lyft, Coinbase y Stripe emplean AWS para gestionar transacciones, mejorar la seguridad y optimizar sus algoritmos de recomendación o riesgo. Incluso industrias más tradicionales (como manufactura, salud, telecomunicaciones y retail) han migrado cargas críticas a AWS para fortalecer la analítica de datos, implementar inteligencia artificial y reducir costos operacionales.

Ahora bien, en el sector público, las plataformas de computación en la nube como AWS se han convertido en un componente esencial para modernizar la gestión estatal, mejorar la prestación de servicios y fortalecer la seguridad digital. Países como Australia han adoptado AWS a gran escala: su Digital Transformation Agency firmó recientemente un acuerdo para que todo el gobierno acceda a infraestructura en la nube2. En Estados Unidos, múltiples agencias federales emplean AWS GovCloud para alojar información crítica bajo estrictos estándares de seguridad3.

Colombia no ha sido ajena al uso de estos servicios. Por ejemplo, el Ministerio de Ambiente y el IDEAM utilizan AWS para almacenar y procesar grandes volúmenes de datos ambientales, facilitando iniciativas de datos abiertos y mejorando la capacidad de monitoreo climático del país4. Junto a los ejemplos a nivel internacional, estas experiencias muestran que la nube no solo es un recurso tecnológico, sino un habilitador estratégico para gobiernos que buscan ser más eficientes, innovadores y resilientes.

Sin embargo, el amplío uso de esta plataforma, se ha transformado en una enorme dependencia en la nube, lo que trae consigo sus riesgos. En octubre de 2025, AWS sufrió una interrupción global significativa que dejó fuera de servicio miles de aplicaciones y plataformas importantes.

Durante el pico del incidente, múltiples servicios reportaron errores significativos de API y problemas de conectividad según el propio AWS. Plataformas como Snapchat, Roblox, Fortnite, Canva, Duolingo, Servicios bancarios como BBVA e ING, operadores como Movistar y Orange y hasta algunos servicios propios de Amazon experimentaron interrupciones5.

A pesar de que AWS logró mitigar el problema en unas pocas horas, al restablecer los servicios, algunas funciones continuaron con altos niveles de error, especialmente en servicios como CloudTrail y Lambda, lo que evidencia las dificultades de recuperación tras una interrupción de gran escala6.

Causas del incidente

De acuerdo con los reportes de AWS este incidente se originó a partir de un problema en su sistema interno de resolución, conocido como un error del Sistema de Nombres de Dominio (DNS por sus siglas en inglés), específicamente vinculado a los endpoints de DynamoDB en la región US-EAST-1, una de las más grandes y críticas del mundo. Como los servicios de AWS se comunican constantemente entre sí mediante nombres de dominio internos, la incapacidad de resolver estos nombres hacia sus direcciones IP reales generó un efecto dominó inmediato. En la práctica, miles de servicios intentaban conectarse al endpoint de DynamoDB, pero los servidores DNS respondían con errores o no respondían en absoluto, dejando a los sistemas sin una ruta válida para funcionar7.

El detalle técnico más importante fue la condición de carrera (“race condition”) que ocurrió dentro del sistema automatizado que administra las configuraciones de DNS internas de AWS. Este sistema, compuesto por dos módulos —»Planner» y «Enactor»—, está diseñado para coordinar cambios en infraestructura altamente distribuida. Sin embargo, durante un ciclo de actualización rutinaria, ambos procesos quedaron desincronizados: el Planner generó una actualización correcta, pero el Enactor aplicó posteriormente una versión más antigua de la configuración, sobrescribiendo la nueva. El resultado fue devastador: los registros DNS esenciales para DynamoDB quedaron “vacíos” o inválidos, generando fallos de resolución en millones de solicitudes por segundo8.

Una vez se produjeron los errores de DNS, el impacto se propagó a lo largo de múltiples servicios fundamentales de AWS que dependen de DynamoDB para almacenar metadatos, estados de ejecución, sesiones o autorizaciones. Servicios como IAM, Lambda, EC2, Elastic Load Balancing, entre otros, comenzaron a fallar o a experimentar latencias extremas. Esto ocurrió porque estos servicios consultan DynamoDB de manera continua para operar; si esa consulta no puede completarse por fallos DNS, el servicio entero puede degradarse o detenerse. Esta interdependencia es una característica del diseño de AWS: es eficiente, pero también significa que fallas en un servicio de alto nivel pueden tener repercusiones globales.

La recuperación tampoco fue inmediata. AWS tuvo que intervenir manualmente para restablecer las configuraciones correctas, realinear el funcionamiento del Planner y el Enactor, y purgar caches negativos en los resolutores DNS. Además, grandes proveedores, clientes empresariales y CDNs que dependen de AWS debieron esperar a que sus propios sistemas eliminaran respuestas DNS inválidas almacenadas en caché, lo que extendió la duración del incidente9.

Consecuencias del Incidente

La caída global de AWS tuvo impactos económicos inmediatos y cuantiosos, pues interrumpió el funcionamiento de plataformas de comercio electrónico, servicios financieros, aplicaciones empresariales y sistemas de transacciones en línea. Empresas con operaciones críticas alojadas en AWS experimentaron pérdidas por ventas no procesadas, disminución de productividad y costos asociados a la recuperación de sistemas. Diversos análisis estiman que el episodio pudo costar cientos de millones de dólares a nivel mundial, dado que la interrupción afectó a compañías que dependen completamente de la disponibilidad continua de sus servicios en la nube10.

En términos operativos, la caída generó un efecto en cadena que paralizó temporalmente comunicaciones internas, sistemas de autenticación, plataformas de integración y servicios esenciales para miles de organizaciones. La degradación de servicios como EC2, Lambda, DynamoDB y herramientas de gestión de identidades impidió que muchas empresas accedieran a sus bases de datos, realizaran despliegues, ejecutaran funciones automatizadas o incluso mantuvieran activos sus portales públicos. Para los usuarios finales esto se tradujo en aplicaciones caídas, procesos detenidos y fallas en servicios cotidianos que forman parte de la vida digital contemporánea.

En el plano social y comunicacional, el incidente tuvo un efecto especialmente crítico sobre medios de comunicación, plataformas de información ciudadana y otros servicios.

Finalmente, el incidente tuvo consecuencias políticas y regulatorias, pues reavivó debates en torno al papel de las grandes tecnológicas como infraestructuras críticas globales. Gobiernos, organismos multilaterales y expertos en regulación tecnológica destacaron la necesidad de fortalecer marcos de supervisión, exigir estándares más robustos de transparencia y promover prácticas que reduzcan la dependencia de un único proveedor de nube11. Este evento dejó claro que las fallas técnicas de actores privados pueden tener efectos tan disruptivos como las interrupciones de los servicios públicos tradicionales.

En partir de lo anterior se puede concluir que este incidente pone en evidencia dos asuntos clave:

  1. La fragilidad de la infraestructura digital concentrada en pocos proveedores.
  2. La necesidad de estrategias de resiliencia ante este tipo de incidentes. Por ejemplo, adoptar estrategias multi-nube, donde los componentes de los sistemas o servicios se ejecuten utilizando varios proveedores de servicios de nube. Otra alternativa podría ser diseñar sistemas desacoplados y redundantes, donde los componentes críticos (bases de datos, colas de mensajes, APIs) no dependan de un solo punto de falla. Esto se logra mediante replicación de datos, uso de patrones de microservicios, balanceadores de carga, y mecanismos de copia de seguridad. Además, se pueden aplicar enfoques de degradación controlada para garantizar que, si una parte de la infraestructura falla, el resto del sistema continúe operando, aunque con menor capacidad12. Estas junto a otras estrategias ya están siendo usadas por diversas empresas para mitigar riesgos asociados a este tipo de incidentes.

A modo de conclusión, la concentración extrema del mercado convierte cualquier fallo en un riesgo sistémico. La caída global de AWS en 2025 demostró que incluso la infraestructura digital más robusta puede convertirse en un punto único de vulnerabilidad cuando millones de servicios públicos y privados dependen de un mismo proveedor. Más allá de las pérdidas económicas y las interrupciones operativas inmediatas, el episodio puso de relieve la fragilidad estructural de un ecosistema digital hiperconectado y altamente centralizado.

Los impactos sobre gobiernos, empresas y usuarios finales evidencian la urgencia de adoptar estrategias de resiliencia (como arquitecturas multi-cloud, sistemas desacoplados etc) que permitan reducir la dependencia crítica y aumentar la capacidad de recuperación frente a fallos de gran escala. De otro lado, este evento reafirma que la estabilidad del entorno digital global no puede descansar sobre unos pocos actores tecnológicos, sino que requiere diversificación, transparencia y una gobernanza más equilibrada para garantizar continuidad, seguridad y confianza en la infraestructura que sostiene la vida digital contemporánea.

  1. Amazon Web Services. What is AWS? [en línea]. Disponible en: https://aws.amazon.com/es/what-is-aws/  [consulta: 25-11-2025]. ↩︎
  2. DTA – Digital Transformation Agency. New Whole-of-Government Arrangement signed with Amazon Web Services (AWS) Australia. [en línea]. 31 ene. 2025. Disponible en: https://www.dta.gov.au/media-release/new-whole-government-arrangement-signed-amazon-web-services-aws-australia  [consulta: 25-11-2025]. ↩︎
  3. Amazon Web Services. AWS GovCloud (EE. UU.). [en línea]. Disponible en: https://aws.amazon.com/es/govcloud-us/  [consulta: 25-11-2025]. ↩︎
  4. COLOMBIA, Ministerio de Ambiente y Desarrollo Sostenible. Por primera vez en Colombia, MinAmbiente utiliza Amazon Web Services en beneficio del sector ambiental. [en línea]. Disponible en: https://www.minambiente.gov.co/por-primera-vez-en-colombia-minambiente-utiliza-amazon-web-service-en-beneficio-del-sector-ambiental/ [consulta: 25-11-2025]. ↩︎
  5. La Ecuación Digital. AWS sufre una caída global que ha fallado (y por qué afecta a medio mundo). [en línea]. 21 oct. 2025. Disponible en: https://www.laecuaciondigital.com/analisis-opinion/opinion/aws-sufre-una-caida-global-que-ha-fallado-y-por-que-afecta-a-medio-mundo/  [consulta: 25-11-2025] ↩︎
  6. Ibid. ↩︎
  7. ThousandEyes. AWS Outage Analysis: October 20, 2025. [en línea]. Disponible en: https://www.thousandeyes.com/blog/aws-outage-analysis-october-20-2025  [consulta: 25-11-2025] ↩︎
  8. Kumili, Leela. AWS Outage: Root Cause Analysis (Oct 19–20, 2025). Medium. [en línea]. Disponible en: https://medium.com/@leela.kumili/aws-outage-root-cause-analysis-bd88ffcab160   [consulta: 25-11-2025] ↩︎
  9. ThousandEyes. Op. Cit. ↩︎
  10. Risk & Insurance. AWS outage loss estimates range from US$ 38 M to US$ 581 M as cyber insurers face moderate impact. [en línea]. Disponible en: https://riskandinsurance.com/aws-outage-loss-estimates-range-from-38m-to-581m-as-cyber-insurers-face-moderate-impact/
     [consulta: 25-11-2025]. ↩︎
  11. Euronews España. La caída de Amazon resalta la abrumadora dependencia de la UE de las grandes tecnológicas. [en línea]. Disponible en: https://es.euronews.com/next/2025/10/21/la-caida-de-amazon-resalta-la-abrumadora-dependencia-de-la-ue-de-las-grandes-tecnologicas
     [consulta: 25-11-2025]. ↩︎
  12. Quanture Technologies. Arquitectura Cloud Resiliente: El Mapa Definitivo para CTOs. [en línea]. 03 nov. 2025. Disponible en: https://quanturetechnologies.com/arquitectura-cloud-resiliente-el-mapa-definitivo-para-ctos/
    [consulta: 26-11-2025]. ↩︎

*La entrada publicada en el Blog no refleja la opinión del Departamento de Derecho, Comunicaciones y Tecnologías de la Información. El autor es el único responsable del contenido y las opiniones expresadas en la misma*.

Imagen en iStock JHVEPhoto