Este es el informe presentado por Google sobre el incidente ocurrido el pasado dia 6 de mayo de 2010 y que afectó al servicio de Google Calendar. Resumen del problema Desde las 10:58 horas hasta las 12:15, del jueves 6 de mayo, una combinación de problemas provocó una sobrecarga en el servicio de Google Calendar lo que ocasionó un mal funcionamiento de la aplicación o que los calendarios aparecieran como no disponibles para algunos usuarios. En ningun momento se perdieron datos. Acciones y análisis de las causas que lo provocaron
La combinación de estos cuatro temas: la cuestión del puerto, los recursos necesarios para procesar las solicitudes de suscripcición, el número de solicitudes de suscripcion y la respuesta de traslado de calendarios a otros centros de datos, dieron como consecuencia un fallo en cascada en el que muchos servidores de calendario ya no eran capaces de asumir el tráfico al que se veían sometidos. Para resolver el problema inmediato, el equipo de ingeniería realizó un cambio en la configuración para limitar las solicitudes de suscripcion de Android hasta que la carga se redujo y la capacidad pudo ser restaurada. Los problema de Google Calendar se resolvieron a las 12:15 horas del jueves 6 de mayo. Algunos problemas de rendimiento persistieron durante 20 minutos más despues del incidente mientras el sistema se estabilizó. Medida correctivas y preventivas El equipo de ingeniería llevo a cabo un análisis interno y ejecutó las siguiente acciones para ayudar a abordar las causas subyacentes del problema y ayudar a prevenir la repetición:
El incidente del dia 6 de mayo fue similar al anterior del 28 de abril. En su momento se informó como la causa principal del problema la gran cantidad de actualizaciones que se produjeron a raíz de los fallos en las solicitudes de suscripción. Las acciones correctivas tomadas en su momento apoyan el diágnostico. Tras realizar investigaciones adicionales, el equipo de ingeniería descubrió el problema subyacente de la liberación del puerto y que las actualizaciones de administración de cuentas eran un efecto mas que una causa. La acción correctiva necesaria para solventar la causa fundamental estaban en marcha en el momento del incidente, pero no habían sido todavía desplegadas. Las actualizaciones necesarias están actualmente en desarrollo. Desde Google piden disculpas por el impacto de este incidente, reiteran las gracias por su paciencia y su contínuo apoyo. Fuente: The Google Apps Team |