Inicio‎ > ‎NOTICIAS‎ > ‎

Informe sobre incidente en funcionamiento de Google Calendar del 6 de mayo-2010


Este es el informe presentado por Google sobre el incidente ocurrido el pasado dia 6 de mayo de 2010 y que afectó al servicio de Google Calendar.


Resumen del problema

Desde las 10:58 horas hasta las 12:15, del jueves 6 de mayo, una combinación de problemas provocó una sobrecarga en el servicio de Google Calendar lo que ocasionó un mal funcionamiento de la aplicación o que los calendarios aparecieran como no disponibles para algunos usuarios. En ningun momento se perdieron datos.


Acciones y análisis de las causas que lo provocaron
  • Cuando la información de usuario cambia se produce una notificación desde el Sistema de Gestión de Cuentas a Google Calendar. Un cambio reciente en el Sistema de Gestión de Cuentas provocó un aumento de estas notificaciones, lo que desencadenó un problema del núcleo del sistema operativo cuando los puertos TCP|UDP en los servidores de Calendar no podían ser liberados después del uso.
            Este problema limita drásticamente la capacidad de comunicación de los servidores de Calendar.
  • Google Calendar permite a los clientes suscribirse a las notificaciones cuando se cambia un calendario. Procesar estas suscripciones requiere mucha mas comunicación entre los servidores de Calendar de la esperada, provocando tiempos de respuesta más lentos.
  • Android es uno de los mayores usuarios del servicio de suscripción de Calendar, como Google Calendar presentaba problemas de lentitud al procesar las solicitudes de suscripción, Android las reiteraba, agravando la sobrecarga que ya sufrían los servidores de Caledar. En respuesta Google Calendar comenzó a trasladar calendarios de usuarios a otros centros de datos.
  • Cuando un calendario de usuario se mueve a un nuevo centro de datos, el Sistema de Gestión de Cuentas transmite la información a los servidores de Calendar, añadiendo todavía mas carga de comunicacion a los servidores de Calendar.

La combinación de estos cuatro temas: la cuestión del puerto, los recursos necesarios para procesar las solicitudes de suscripcición, el número de solicitudes de suscripcion y la respuesta de traslado de calendarios a otros centros de datos, dieron como consecuencia un fallo en cascada en el que muchos servidores de calendario ya no eran capaces de asumir el tráfico al que se veían sometidos.

Para resolver el problema inmediato, el equipo de ingeniería realizó un cambio en la configuración para limitar las solicitudes de suscripcion de Android hasta que la carga se redujo y la capacidad pudo ser restaurada.

Los problema de Google Calendar se resolvieron  a las 12:15 horas del jueves 6 de mayo.

Algunos problemas de rendimiento persistieron durante 20 minutos más despues del incidente mientras el sistema se estabilizó.


Medida correctivas y preventivas

El equipo de ingeniería llevo a cabo un análisis interno y ejecutó las siguiente acciones para ayudar a abordar las causas subyacentes del problema y ayudar a prevenir la repetición:
  • Reparar el problema que impedía la liberación adecuada de los puertas TCP|UDP en los servidores de Calendar
  • Re-implementar el proceso de solicitudes de suscripción para hacerlo más eficiente.
  • Mejorar la coordinacion entre Calendar y Android para optimizar las solicitudes de suscripción y el tratamiento de las solicitudes que fallan y elaborar planes de crecimiento de Android.
  • Mejorar el equilibrio de carga, seguimiento y limitación de velocidad de cualquier solicitud en el calendario de cualquier otro servicio.
  • Establecer claramente planes de capacidad y directrices sobre la velocidad para sistemas que se integran con Google Calendar.

El incidente del dia 6 de mayo fue similar al anterior del 28 de abril. En su momento se informó como la causa principal del problema la gran cantidad de actualizaciones que se produjeron a raíz de los fallos en las solicitudes de suscripción. Las acciones correctivas tomadas en su momento apoyan el diágnostico.

Tras realizar investigaciones adicionales, el equipo de ingeniería descubrió el problema subyacente de la liberación del puerto y que las actualizaciones de administración de cuentas eran un efecto mas que una causa.

La acción correctiva necesaria para solventar la causa fundamental estaban en marcha en el momento del incidente, pero no habían sido todavía desplegadas.

Las actualizaciones necesarias están actualmente en desarrollo.

Desde Google piden disculpas por el impacto de este incidente, reiteran las gracias por su paciencia y su contínuo apoyo.

Fuente: The Google Apps Team