El pasado día 17 de abril de 2012 a las 11:09 horas comienzan a experimentarse problemas de acceso a Gmail. Los usuarios afectados experimentan dos tipos de error, por un lado al intentar acceder aparece un error 700 que impide el acceso y por otro lado hay usuarios que ya una vez dentro de Gmail obtienen errores de la serie 500 que impiden la utilización de la interfdaz web de Gmail e incluso experimentan retraso en el envío de mensajes. Este incidente afectó realmente al 1.4% de usuarios de Gmail, aunque en el transcurso del evento se llegase a informar que los usuarios afectados estaban entre el 2 y el 10% de los usuarios de Gmail. Analisis de la causa principal del problema: - A las 11:28 los ingenieros de Google comienzan a recibir alertas internas que avisan del problema. Simultaneamente los usuarios comienzan a reportar a través de Soporte de Google Apps el problema
- Se establece, entonces, como causa raíz del problema una desconfiguración que se produce durante una actualización de rutina.
- Esto produce que automáticamente se impida el acceso a los clientes y se detiene el procesamiento de mensaje para que de acuerdo con el diseño del sistema no se poduzca ninguna perdida o corrupción de datos.
- A las 11:46 se identifica cual es la desconfiguración y se comienza el proceso para revertirla
- A las 12:10 se reinician los servidores afectados
- Esto provoca que se comience a solucionar el problema para muchos usuarios, y a las 12:45 el problema ha sido totalmente solucionado para todos los usuarios.
Medidas correctivcas y preventivas:El equipo de ingenieros de Gmail ha llevado a cabo una revisión y
análisis interno y ha establecido las siguientes medidas para evitar la
causa subyacente del problema y evitar que vuelva a ocurir - Prevención:
- Reducir y aislar los efectos de esta clase de problemas de configuración
- Mejorar el sistema responsable de la gestión de la configuración
- Añadir garantías adicionales para identificar los errores de configuración antes de una liberación
- Aumentar la documentación interna de la gestión de las configuraciones
- Detección del problema y velocidad de recuperación:
- Aplicar un control adicional para detectar antes del despliegue de actualizaciones
- Eliminación de la necesidad de reiniciar los servidores para recuperarse de este tipo de error.
Desde Soporte de Google Apps se agradece la paciencia de los ususarios afectados y se piden disculpas por el impacto de este incidente. |
|