Caída AWS Múltiples servicios (N. Virginia)

Incident Report for Kushki

Resolved

Se ha mantenido en monitoreo y se valida estabilidad a nivel transaccional, y nuestros servicios permanecen estables, de parte de Aws se da por cerrado el incidente y no se han presentado nuevos eventos. De nuestra parte se mantendrá el flujo por segunda región hasta el día de mañana 21 de octubre sin embargo damos por cerrado el incidente.

Posted Oct 20, 2025 - 20:20 GMT-05:00

Update

Aws informa que entre las 23:49 PDT del 19 de octubre y las 02:24 PDT del 20 de octubre, experimentamos un aumento de las tasas de error y las latencias en los servicios de AWS en la región US-EAST-1. Además, los servicios o las funciones que dependen de los puntos de conexión US-EAST-1, como IAM y las tablas globales de DynamoDB, también experimentaron problemas durante este tiempo. A las 00:26 del 20 de octubre, identificamos el desencadenante del evento como problemas de resolución de DNS para los puntos de conexión del servicio regional de DynamoDB. Después de resolver el problema de DNS de DynamoDB a las 02:24, los servicios comenzaron a recuperarse, pero sufrimos una falla posterior en el subsistema interno de EC2, responsable del lanzamiento de las instancias de EC2, debido a su dependencia de DynamoDB. A medida que continuamos solucionando los problemas de lanzamiento de instancias de EC2, las comprobaciones de estado del balanceador de carga de red también se vieron afectadas, lo que provocó problemas de conectividad de red en varios servicios, como Lambda, DynamoDB y CloudWatch. Recuperamos las comprobaciones de estado del balanceador de carga de red a las 9:38 a. m. Como parte de la recuperación, limitamos temporalmente algunas operaciones, como el lanzamiento de instancias de EC2, el procesamiento de colas de SQS mediante asignaciones de origen de eventos de Lambda y las invocaciones asincrónicas de Lambda. Con el tiempo, redujimos la limitación de las operaciones y trabajamos en paralelo para resolver los problemas de conectividad de red hasta que los servicios se recuperaron por completo. A las 3:01 p. m., todos los servicios de AWS volvieron a funcionar con normalidad. Algunos servicios, como AWS Config, Redshift y Connect, siguen teniendo una acumulación de mensajes que finalizarán de procesar en las próximas horas. Compartiremos un resumen detallado de AWS posterior al evento.

De parte AWS dan por resuelto el incidente. De nuestra parte se valida que los servicios se encuentran normalizando sin embargo nos mantenemos en monitoreo hasta evidencia estabilidad.

Posted Oct 20, 2025 - 18:13 GMT-05:00

Update

AWS emite un update del caso mediante su página de estatus sobre issue Problema operativo - Múltiples servicios (N. Virginia):
”[14:48 PDT] Hemos restaurado las limitaciones de lanzamiento de instancias de EC2 a los niveles previos al evento y los fallos de lanzamiento de EC2 se han recuperado en todas las zonas de disponibilidad de las regiones US-EAST-1. Los servicios de AWS que dependen de los lanzamientos de instancias de EC2, como Redshift, están solucionando su retraso de lanzamientos de instancias de EC2 con éxito y prevemos una recuperación completa del retraso en las próximas dos horas. Podemos confirmar que Connect gestiona las nuevas sesiones de voz y chat con normalidad. Hay una acumulación de datos de análisis e informes que debemos procesar y prevemos que habremos solucionado el retraso en las próximas dos horas. Proporcionaremos una actualización a las 15:30 PDT.”. Cualquier avance se comunicará oportunamente, nos mantenemos en monitoreo.

Posted Oct 20, 2025 - 17:04 GMT-05:00

Update

AWS emite un update del caso mediante su página de estatus sobre issue Problema operativo - Múltiples servicios (N. Virginia):
”[13:52 PDT] Hemos seguido reduciendo las limitaciones para los lanzamientos de instancias de EC2 en la región US-EAST-1 y seguimos avanzando hacia los niveles previos al evento en todas las zonas de disponibilidad (AZ). Los servicios de AWS, como ECS y Glue, que dependen de los lanzamientos de instancias de EC2, se recuperarán a medida que mejore la tasa de lanzamientos exitosos. Observamos una recuperación completa de las invocaciones de Lambda y estamos trabajando en la acumulación de eventos en cola, que esperamos procesar por completo en aproximadamente las próximas dos horas. Proporcionaremos otra actualización a las 14:30 PDT.”.

Posted Oct 20, 2025 - 15:57 GMT-05:00

Update

AWS emite un update del caso mediante su página de estatus sobre issue Problema operativo - Múltiples servicios (N. Virginia):
”[13:03 PDT] La recuperación del servicio en todos los servicios de AWS continúa mejorando. Seguimos reduciendo las limitaciones para el lanzamiento de nuevas instancias de EC2 en la región US-EAST-1, implementadas para mitigar el impacto. Los errores de invocación de Lambda se han recuperado por completo y los errores de función siguen mejorando. Hemos aumentado la velocidad de sondeo de las colas de SQS mediante mapeos de orígenes de eventos de Lambda a niveles previos al evento. Proporcionaremos otra actualización a la 13:45 PDT.”. Cualquier avance se comunicará oportunamente, nos mantenemos en monitoreo.

Posted Oct 20, 2025 - 15:13 GMT-05:00

Update

AWS emite un update del caso mediante su página de estatus sobre issue Problema operativo - Múltiples servicios (N. Virginia):
”[12:15 PM PDT] Seguimos observando una recuperación en todos los servicios de AWS, y los lanzamientos de instancias se están realizando correctamente en varias zonas de disponibilidad de las regiones US-EAST-1. En el caso de Lambda, los clientes podrían experimentar errores de función intermitentes en las funciones que realizan solicitudes de red a otros servicios o sistemas mientras trabajamos para solucionar los problemas de conectividad de red residuales. Para solucionar los errores de invocación de Lambda, reducimos la velocidad de sondeo de SQS mediante las asignaciones de fuentes de eventos de Lambda. Ahora estamos aumentando la velocidad de sondeo de SQS a medida que observamos más invocaciones exitosas y menos errores de función. Proporcionaremos otra actualización a la 1:00 PM PDT.”. Cualquier avance se comunicará oportunamente, nos mantenemos en monitoreo.

Posted Oct 20, 2025 - 14:25 GMT-05:00

Update

Se ha venido presentando problemas operativos en algunos servicios de AWS. En el último update del caso informan lo siguiente:

Problema operativo - Múltiples servicios (N. Virginia)

"[11:22 a. m. PDT] Nuestras mitigaciones para resolver los fallos de lanzamiento de las nuevas instancias de EC2 siguen avanzando y observamos un aumento en los lanzamientos de nuevas instancias de EC2 y una disminución de los problemas de conectividad de red en la región US-EAST-1. También estamos experimentando mejoras significativas en los errores de invocación de Lambda, especialmente al crear nuevos entornos de ejecución (incluidas las invocaciones de Lambda@Edge). Proporcionaremos una actualización a las 12:00 p. m. PDT." Continuamos realizando validaciones de nuestro lado un aumento de trxs por “Procesador Inalcanzable” para Kushki ACQ (CL-CO-PE-MX)”. Cualquier avance se comunicará oportunamente, nos mantenemos en monitoreo.

Posted Oct 20, 2025 - 13:27 GMT-05:00

Update

Se ha venido presentando problemas operativos en algunos servicios de AWS. En el último update del caso informan lo siguiente:

Problema operativo - Múltiples servicios (N. Virginia)

"[10:38 a. m. PDT] Nuestras medidas de mitigación para resolver los fallos de lanzamiento de las nuevas instancias de EC2 están progresando y los subsistemas internos de EC2 muestran signos tempranos de recuperación en algunas zonas de disponibilidad (AZ) de la región US-EAST-1. Estamos aplicando medidas de mitigación a las AZ restantes, momento en el que esperamos que los errores de lanzamiento y los problemas de conectividad de red disminuyan." Continuamos realizando validaciones de nuestro lado un aumento de trxs por “Procesador Inalcanzable” para Kushki ACQ (CL-CO-PE-MX)”. Cualquier avance se comunicará oportunamente, nos mantenemos en monitoreo.

Posted Oct 20, 2025 - 12:41 GMT-05:00

Update

Seguimos implementando medidas de mitigación para el estado del balanceador de carga de red y la recuperación de la conectividad para la mayoría de los servicios de AWS. Lambda está experimentando errores de invocación de funciones debido a que un subsistema interno se vio afectado por las comprobaciones del estado del balanceador de carga de red. Estamos implementando medidas para recuperar este sistema Lambda interno. Para las fallas en las instancias de lanzamiento de EC2, estamos en proceso de validar una solución y la implementaremos en la primera zona de disponibilidad (AZ) tan pronto como tengamos confianza en que podemos hacerlo de forma segura. Proporcionaremos una actualización a las 10:45 a. m. PDT. Adicionalmente se está validando de nuestro lado un aumento de trxs por “Procesador Inalcanzable” para Kushki ACQ (CL-CO-PE-MX)”. Cualquier avance se comunicará oportunamente, nos mantenemos en monitoreo.

Posted Oct 20, 2025 - 12:12 GMT-05:00

Update

Se mantiene mejoría a nivel transaccional para Kushki y Billpocket. AWS emite un update del caso mediante su página de estatus sobre issue Problema operativo - Múltiples servicios (N. Virginia):
“[09:14 AM (GMT-5)] Podemos confirmar errores significativos de API y problemas de conectividad en varios servicios de la región US-EAST-1. Estamos investigando y proporcionaremos más información en 30 minutos o pronto si tenemos más información.” De nuestro lado nos mantenemos en monitoreo y cualquier avance brindado por AWS se comunicará oportunamente.

Posted Oct 20, 2025 - 09:35 GMT-05:00

Update

Se mantiene mejoría a nivel transaccional a partir de las 04:20 am (GMT-5) para Kushki y desde las 05:30 am (GMT-5) para Billpocket. AWS emite un update del caso mediante su página de estatus sobre issue Problema operativo - Múltiples servicios (N. Virginia):

“[05:10 AM PDT] Confirmamos que hemos recuperado el procesamiento de las colas de SQS mediante las asignaciones de orígenes de eventos de Lambda. Estamos procesando la acumulación de mensajes de SQS en las colas de Lambda.

[05:48 AM PDT] Estamos avanzando en la resolución del problema con los nuevos lanzamientos de instancias de EC2 en la región US-EAST-1 y ahora podemos lanzar nuevas instancias correctamente en algunas zonas de disponibilidad. Estamos aplicando mitigaciones similares a las zonas de disponibilidad restantes afectadas para restablecer los nuevos lanzamientos de instancias. A medida que avanzamos, los clientes verán un número creciente de nuevos lanzamientos de EC2 exitosos. Seguimos recomendando a los clientes que lancen nuevas instancias de EC2 que no estén dirigidas a una zona de disponibilidad (AZ) específica para que EC2 tenga flexibilidad para seleccionar la AZ adecuada. También queremos informarles que seguimos procesando correctamente la acumulación de eventos tanto para EventBridge como para Cloudtrail. Los nuevos eventos publicados en estos servicios se entregan con normalidad y no experimentan latencias de entrega elevadas. Les proporcionaremos una actualización antes de las 6:30 AM PDT o antes si tenemos información adicional. ”

Nos mantenemos en monitoreo por un periodo de tiempo más hasta confirmar la estabilidad total en los servicios de aws y cualquier novedad se informará de manera oportuna.
ROCK MONITORING TEAM

Posted Oct 20, 2025 - 08:08 GMT-05:00

Update

Se mantiene mejoría a nivel transaccional a partir de las 04:20 am (GMT-5) para Kushki y desde las 05:30 am (GMT-5) para Billpocket. AWS emite un update del caso mediante su página de estatus sobre issue Problema operativo - Múltiples servicios (N. Virginia):

“[04:48 AM PDT] Seguimos trabajando para restaurar por completo los nuevos lanzamientos de EC2 en US-EAST-1. Recomendamos lanzamientos de instancias de EC2 que no estén dirigidos a una zona de disponibilidad (AZ) específica para que EC2 tenga flexibilidad para seleccionar la AZ adecuada. La deficiencia en los nuevos lanzamientos de EC2 también afecta a servicios como RDS, ECS y Glue. También recomendamos que los grupos de escalado automático se configuren para usar varias AZ, de modo que Auto Scaling pueda gestionar automáticamente los lanzamientos de instancias de EC2. Estamos implementando medidas de mitigación adicionales para recuperar los retrasos de sondeo de Lambda para las asignaciones de orígenes de eventos para SQS. Las funciones de AWS que dependen de las capacidades de sondeo de SQS de Lambda, como las actualizaciones de políticas de la organización, también experimentan tiempos de procesamiento elevados. Proporcionaremos una actualización a las 5:30 AM PDT.”

Nos mantenemos en monitoreo por un periodo de tiempo más hasta confirmar la estabilidad total en los servicios de aws y cualquier novedad se informará de manera oportuna.
ROCK MONITORING TEAM

Posted Oct 20, 2025 - 07:25 GMT-05:00

Update

Se ha mantenido en monitoreo y se valida cierta mejoría a nivel transaccional a partir de las 04:20 am (GMT-5). AWS emite un update del caso mediante su página de estatus sobre issue Problema operativo - Múltiples servicios (N. Virginia):

“[03:35 AM PDT] El problema subyacente de DNS se ha mitigado por completo y la mayoría de las operaciones de los servicios de AWS funcionan correctamente con normalidad. Algunas solicitudes podrían verse limitadas mientras trabajamos para resolverlo por completo. Además, algunos servicios, como Cloudtrail y Lambda, siguen trabajando con una acumulación de eventos. Si bien la mayoría de las operaciones se han recuperado, las solicitudes para lanzar nuevas instancias de EC2 (o servicios que lanzan instancias de EC2, como ECS) en la región US-EAST-1 aún experimentan un aumento de las tasas de error. Seguimos trabajando para resolverlo por completo. Si sigue experimentando problemas para resolver los puntos de conexión del servicio DynamoDB en US-EAST-1, le recomendamos vaciar sus cachés DNS. Le proporcionaremos una actualización a las 4:15 a. m. o antes si disponemos de información adicional.”

“[04:08 AM PDT] Seguimos trabajando para recuperar por completo los errores de lanzamiento de EC2, que pueden manifestarse como un error de capacidad insuficiente. Además, seguimos trabajando para mitigar los elevados retrasos de sondeo de Lambda, específicamente para las asignaciones de orígenes de eventos de Lambda para SQS. Proporcionaremos una actualización a las 5:00 AM PDT.”

Nos mantenemos en monitoreo por un periodo de tiempo más hasta confirmar estabilidad y cualquier novedad se informará de manera oportuna.

Posted Oct 20, 2025 - 06:56 GMT-05:00

Update

AWS emite un update del caso mediante su página de estatus sobre el issue Problema operativo - Múltiples servicios (N. Virginia):

“[03:03 AM PDT] Seguimos observando la recuperación en la mayoría de los servicios de AWS afectados. Podemos confirmar que los servicios y las funciones globales que dependen de US-EAST-1 también se han recuperado. Seguimos trabajando para lograr una resolución completa y proporcionaremos actualizaciones a medida que tengamos más información para compartir.”

Nos mantenemos en monitoreo y cualquier novedad se informará de manera oportuna.

Posted Oct 20, 2025 - 05:40 GMT-05:00

Monitoring

Se ha venido presentando problemas operativos en algunos servicios de AWS. En el último update del caso informan lo siguiente:

Problema operativo - Múltiples servicios (N. Virginia)

“[02:22 AM PDT] Hemos aplicado medidas de mitigación iniciales y observamos indicios tempranos de recuperación en algunos servicios de AWS afectados. Durante este tiempo, es posible que las solicitudes sigan fallando mientras trabajamos para resolverlas por completo. Recomendamos a los clientes que reintenten las solicitudes fallidas. Si bien las solicitudes comienzan a procesarse correctamente, puede haber una latencia adicional y algunos servicios tendrán trabajo atrasado que procesar, lo que puede tardar más tiempo en procesarse por completo. Seguiremos proporcionando actualizaciones a medida que tengamos más información para compartir, o antes de las 3:15 AM.”.

“[02:27 AM PDT] Observamos indicios significativos de recuperación. La mayoría de las solicitudes deberían procesarse correctamente. Seguimos trabajando en la acumulación de solicitudes en cola. Seguiremos proporcionando información adicional.”

Nos mantenemos en monitoreo y cualquier novedad se informará de manera oportuna.

Posted Oct 20, 2025 - 04:47 GMT-05:00

This incident affected: Chile Payment Processing (Transbank (CH), ETPay (CH), Sencillito (CH), SafetyPay (CH), Kushki ACQ (CH), Itaú (CH), Kushki Transfer (CH), Banco Chile (CH)), Mexico Payment Processing (Prosa Agr (MX), Datalogic (MX), STP (MX), Kushki ACQ (MX), Red Efectiva (MX), Prosa (MX), Pay cash (MX), BITSO (MX)), Peru Payment Processing (MC (PE), Visanet (PE), SafetyPay (PE), BCP (PE), Kushki ACQ (PE), Kushki Transfer (PE)), Colombia Payment Processing (Kushki ACQ (CO), Credibanco (CO), Redeban (CO), ACH (CO), Banco Bogota (CO), Payvalida (CO), Banco Davivienda (CO), Punto Red (CO)), and Ecuador Payment Processing (Credimatic (EC), Datafast (EC), Facilito (EC), SafetyPay (EC), Bwise (EC)).