Inicio‎ > ‎NOTICIAS‎ > ‎

Informe incidente Gmail del 17 de abril de 2012


El pasado día 17 de abril de 2012 a las 11:09 horas comienzan a experimentarse problemas de acceso a Gmail.

Los usuarios afectados experimentan dos tipos de error, por un lado al intentar acceder aparece un error 700 que impide el acceso y por otro lado hay usuarios que ya una vez dentro de Gmail obtienen errores de la serie 500 que impiden la utilización de la interfdaz web de Gmail e incluso experimentan retraso en el envío de mensajes.

Este incidente afectó realmente al 1.4% de usuarios de Gmail, aunque en el transcurso del evento se llegase a informar que los usuarios afectados estaban entre el 2 y el 10% de los usuarios de Gmail.

Analisis de la causa principal del problema:
  • A las 11:28 los ingenieros de Google comienzan a recibir alertas internas que avisan del problema. Simultaneamente los usuarios comienzan a reportar a través de Soporte de Google Apps el problema
  • Se establece, entonces, como causa raíz del problema una desconfiguración que se produce durante una actualización de rutina.
  • Esto produce que automáticamente se impida el acceso a los clientes y se detiene el procesamiento de mensaje para que de acuerdo con el diseño del sistema no se poduzca ninguna perdida o corrupción de datos.
  • A las 11:46 se identifica cual es la desconfiguración y se comienza el proceso para revertirla
  • A las 12:10 se reinician los servidores afectados
  • Esto provoca que se comience a solucionar el problema para muchos usuarios, y a las 12:45 el problema ha sido totalmente solucionado para todos los usuarios.


Medidas correctivcas y preventivas:El equipo de ingenieros de Gmail ha llevado a cabo una revisión y análisis interno y ha establecido las siguientes medidas para evitar la causa subyacente del problema y evitar que vuelva a ocurir

  • Prevención:
    • Reducir y aislar los efectos de esta clase de problemas de configuración
    • Mejorar el sistema responsable de la gestión de la configuración
    • Añadir garantías adicionales para identificar los errores de configuración antes de una liberación
    • Aumentar la documentación interna de la gestión de las configuraciones
  • Detección del problema y velocidad de recuperación:
    • Aplicar un control adicional para detectar antes del despliegue de actualizaciones
    • Eliminación de la necesidad de reiniciar los servidores para recuperarse de este tipo de error.
Desde Soporte de Google Apps se agradece la paciencia de los ususarios afectados y se piden disculpas por el impacto de este incidente.