Facebook sigue compartiendo más detalles sobre qué es exactamente provocó la interrupción de seis horas que eliminó Facebook, Messenger, Instagram y WhatsApp el lunes. En una nueva publicación de blog, Facebook se sumerge en algunos de los detalles técnicos de lo que provocó la interrupción, diciendo que sucedió debido a un error durante uno de sus muchos «trabajos de mantenimiento de rutina».

Facebook publicó su primer resumen del corte a última hora de la noche del lunes, atribuyéndolo a un solo error que tuvo un «efecto en cascada» en la comunicación del centro de datos, por lo tanto, «paralizó nuestros servicios».

Facebook dice que si bien tiene sistemas para auditar comandos que podrían acabar con toda su red, «un error en esa herramienta de auditoría no se guardó correctamentep ”este comando.

El tráfico de datos entre todas estas instalaciones informáticas se gestiona mediante enrutadores, que determinan dónde enviar todos los datos entrantes y salientes. Y en el extenso trabajo diario de mantener esta infraestructura, nuestros ingenieros a menudo necesitan tomar parte de la red troncal fuera de línea para el mantenimiento, tal vez reparando una línea de fibra, agregando más capacidad o actualizando el software en el enrutador.

Esta fue la fuente del apagón de ayer. Durante uno de estos trabajos de mantenimiento de rutina, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad de la red troncal global, que accidentalmente cortó todas las conexiones en nuestra red troncal, desconectando efectivamente los centros de datos de Facebook a nivel mundial. Nuestros sistemas están diseñados para auditar comandos como estos para evitar errores como este, pero un error en esa herramienta de auditoría no detuvo correctamente el comando.

Este cambio provocó una desconexión completa de nuestras conexiones de servidor entre nuestros centros de datos e Internet. Y esa pérdida total de conexión provocó un segundo problema que empeoró las cosas.

Uno de los trabajos que realizan nuestras instalaciones más pequeñas es responder a las consultas de DNS. DNS es la libreta de direcciones de Internet, lo que permite que los nombres web simples que escribimos en los navegadores se traduzcan a direcciones IP de servidor específicas. Esas consultas de traducción son respondidas por nuestros servidores de nombres autorizados que ocupan direcciones IP bien conocidas, que a su vez se anuncian al resto de Internet a través de otro protocolo llamado protocolo de puerta de enlace fronteriza (BGP).

Para garantizar un funcionamiento confiable, nuestros servidores DNS desactivan esos anuncios de BGP si ellos mismos no pueden hablar con nuestros centros de datos, ya que esto es una indicación de una conexión de red no saludable. En la interrupción reciente, toda la red troncal se retiró de la operación, lo que hizo que estas ubicaciones se declararan insalubres y retiraran esos anuncios de BGP. El resultado final fue que nuestros servidores DNS se volvieron inalcanzables a pesar de que todavía estaban operativos. Esto hizo imposible que el resto de Internet encontrara nuestros servidores.

Una vez que todas las plataformas de Facebook cayeron, su capacidad para solucionar la interrupción se vio afectada por las herramientas internas que también se vieron afectadas por la interrupción. Como tal, Facebook envió ingenieros a los centros de datos para obtener acceso físico al hardware. Sin embargo, incluso esto llevó tiempo porque «el hardware y los enrutadores están diseñados para ser difíciles de modificar incluso cuando se tiene acceso físico a ellos».

En este caso específico, dice que los esfuerzos que ha realizado para mejorar la seguridad de sus sistemas ralentizaron su capacidad para recuperarse de la interrupción, pero que esta es una compensación que considera que vale la pena:

Hemos trabajado mucho para fortalecer nuestros sistemas para evitar el acceso no autorizado, y fue interesante ver cómo ese endurecimiento nos ralentizó mientras intentábamos recuperarnos de una interrupción causada no por una actividad maliciosa, sino por un error de nuestra propia creación. Creo que una compensación como esta vale la pena: mayor seguridad diaria frente a una recuperación más lenta de un evento tan raro como este.

Facebook dice que ya ha comenzado un «extenso proceso de revisión para comprender cómo podemos hacer que nuestros sistemas sean más resistentes».

FTC: Utilizamos enlaces de afiliados de automóviles que generan ingresos. Más.

fundas dbrand Grip para iPhone 13


Consulte 9to5Mac en YouTube para obtener más noticias de Apple:



Fuente de la Publicacion AQUI

Por admin

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *