Inicio‎ > ‎NOTICIAS‎ > ‎

Informe del incidente con Gmail del 27 de febrero de 2011


Google ha hecho publico un informe sobre el incidente ocurrido el pasado día 27 de febrero de 2011 y que afecta a Gmail.

El informe se puede consultar aquí.

En dicho informe Google argumenta que el problema con Gmail afecto a un porcentaje muy pequeño de usuarios, los cuales informaban de buzones vacíos y errores al acceder a Gmail y a otros servicios de Google Apps. Aquí en la Universidad el número de usuarios afectados conocido fue de 2 usuarios en el dominio de personal, upaep.mx y ninguno en el dominio de alumnos, upaep.edu.mx.


La causa

Aproximadamente a las 12:00 horas del día 27 de febrero, soporte de Google comienza a recibir informes iniciales de usuarios que reportan encontrar sus buzones vacíos y que no existen sus ajustes personales, como etiquetas y temas. Tambien se reciben comunicaciones sobre errores de la serie 500 que indican que la cuenta de Gmail no está disponible.

Después de analizar el problema, el equipo de ingeniería de Google determinó que el problema fue causado por un error en la actualización de software de almacenamiento de Gmail, lo que provocó la desaparición de los buzones de algunos usuarios en determinados centros de datos.

A las 15:05 horas se revirtió la actualización de software de almacenamiento para evitar una mayor difusión del problema.


La solución

Una vez analizado el problema y determinado su causa, el equipo de ingeniería de Google trabajó en el proceso de restauración de las cuentas de los usuarios afectados.

A las 20:00, del 27 de febrero, deshabilitó temporalmente el acceso a Gmail y otros servicios de Google Apps a los usuarios que estaban afectados. Estos recibían un mensaje informándo que su cuenta se encontraba en mantenimiento y no podían acceder.

En nuestro caso, solo se reportó problema con dos usuarios del dominio upaep.mx y ninguno en el dominio upaep.edu.mx

A las 15:30, del 28 de febrero, Google restaura el acceso, a los usuarios afectados a la totalidad de los servicios de Google Apps excepto Gmail y comienza el proceso de restauración de datos en los buzones de los usuarios afectados.

Gmail almacena múltiples copias de los mensajes de los usuarios en múltiples centros de datos y además hace copias de seguridad en cinta. Debido al problema inicial los datos no estaban disponibles en los centros de datos, siendo entonces necesario la restauración de los datos desde la cinta de la copia de seguridad.

Hubo entonces que recuperar la información de las cintas, trasladar los datos a los buzones afectados, validar la restauración de los datos, entrega mensajes entrantes en cola y volver a habilitar el acceso a la cuenta.

El hecho de que la copia de seguridad se realice en cinta ha contribuido a aumentar el tiempo necesario para recuperar los datos, ya que el acceso a este medio es secuencial y no muy rápido.

Además, el tiempo de recuperación depende del tamaño del buzón del usuario: cuanto mayor sea el tamaño del mismo
mayor será el tiempo necesario para la restauración.

Es importante destacar que no hubo perdida de mensajes durante el tiempo que duro la restauración. Sin embargo los mensajes entrantes que llegaron entre las 20:00 del 27 de febrero y las 16:00 del 28 de febrero no fueron aceptados y los remitentes recibieron una notificación de error en la entrega.

Los mensajes enviados después de
este intervalo se entregaron como siempre.

A las 17:40, del 2 de marzo, los datos de los buzones y el acceso se había restaurado para el 98% de los usuarios afectados.

A las 00:51, del 3 de marzo, se dá por cerrado el incidente y ya han restaurado los datos y el acceso de todos los usuarios afectados.


Medidas Correctivas y Preventivas

El equipo de ingeniería y soporte de Google ha llevado a cabo una revisión interna y un análisis de los hechos y se han inciiado las
siguientes acciones para ayudar a abordar las causas subyacentes de los problemas y prevenir la repetición:

● Mejora de la herramientas para pruebas para identificar mejor esta clase de errores durante el ciclo de desarrollo de software.
● Implementar alertas y vigilancia para detectar este tipo de problema con mayor rapidez, y detener la propagación.
● Mejorar la velocidad del proceso de restauración de correo electrónico mediante el aumento de la automatización y mejora del rendimiento de las herramientas utilizados para la identificación de los usuarios afectados, así como para desactivar y volver a habilitar las cuentas de usuarios.
● Desarrollar herramientas que permiten a los usuarios mantener el acceso a su cuenta de servicios de Google Apps durante una
interrupción del servicio de Gmail.
● Mejora de las comunicaciones de soporte para que cuando los usuarios presentan un problema de interrupcion del servicio puedan recibir automáticamente información sobre el estado del problema y la resolución

Google reitera el compromiso de servicio y de mejora de su tecnología para prevenir futuras interrupciones del servicio.