La información es la base del desarrollo tecnológico.

test

Breaking

Post Top Ad

Your Ad Spot

25 septiembre 2010

COMUNICADO DE FACEBOOK TRAS FALLA [completo]

LES PRECENTO EL COMUNICADO QUE DIO FACEBOOK TRAS SU DESCONEXION


Primeras horas de hoy Facebook fue abajo o inalcanzable para muchos de ustedes durante aproximadamente 2,5 horas. Este es el peor apagón que hemos tenido en más de cuatro años, y pensamos que era, antes que nada pedir disculpas por ello. También hemos querido dar muchos más detalles técnicos sobre lo que pasó y compartir una gran lección aprendida.

La falla fundamental que provocó esta interrupción a ser tan grave fue un manejo desafortunado de una condición de error. Un sistema automatizado para la configuración de la verificación de los valores terminó causando mucho más daño que lo arreglen.

La intención del sistema automatizado es comprobar que los valores de configuración que no son válidos en la caché y reemplazarlos con valores actualizados del almacén persistente. Esto funciona bien para un problema transitorio con la caché, pero no funciona cuando el almacén persistente no es válido.

Hoy hemos hecho un cambio a la copia persistente de un valor de configuración que se interpretó como no válido. Esto significa que cada cliente vio el valor no válido y trató de arreglarlo. Debido a que la solución consiste en hacer una consulta a un grupo de bases de datos, ese grupo fue rápidamente abrumado por cientos de miles de consultas por segundo.

Para empeorar las cosas, cada vez que un cliente tiene un error al intentar una consulta de las bases de datos que lo interpretaron como un valor no válido, y suprime la tecla caché correspondiente. Esto significa que incluso después del problema original se había fijado, el flujo de consultas continuó. Mientras las bases de datos no al servicio de algunas de las solicitudes, peticiones que estaban causando aún más a sí mismos. Habíamos entrado en un bucle de retroalimentación que no permitió que las bases de datos para recuperar.

La manera de detener el ciclo de retroalimentación fue muy doloroso - tuvimos que parar todo el tráfico a este grupo de base de datos, lo que significa apagar el sitio. Una vez que las bases de datos se ha recuperado y la causa había sido fijada, que poco a poco permitió que más personas en la web.

Esto tiene el sitio vuelva a funcionar hoy, y por ahora hemos apagado el sistema que intenta corregir los valores de configuración. Estamos explorando nuevos diseños para este sistema de configuración de los siguientes patrones de diseño de otros sistemas en Facebook con más gracia que tienen que ver con mecanismos de retroalimentación y picos transitorios.

Nos disculpamos de nuevo por la interrupción en el sitio, y queremos que sepa que tomamos el rendimiento y la fiabilidad de Facebook muy en serio.  

fuente: facebook 

No hay comentarios:

Publicar un comentario

bienvenid@ a kanlop.com
agradezco que dejes tu comentario y hacer saber tu opinión al respecto.

Post Top Ad

Your Ad Spot

Páginas