Facebook spiega l'arresto della spina dorsale dietro la sua interruzione globale lunedì

0
133

La massiccia interruzione che ha bloccato Facebook, i suoi servizi associati (Instagram, WhatsApp, Oculus, Messenger), la sua piattaforma per le aziende e la rete interna dell'azienda è iniziata con la manutenzione ordinaria.

Secondo il vicepresidente dell'infrastruttura Santosh Janardhan, un comando emesso durante la manutenzione ha inavvertitamente causato l'arresto della dorsale che collega tutti i data center di Facebook, ovunque nel mondo.

< p id="ZFpNTp">Questo di per sé è già abbastanza grave, ma come abbiamo già spiegato, il motivo per cui non è possibile utilizzare Facebook è che le informazioni di routing DNS e BGP che puntano ai suoi server sono improvvisamente scomparse. Secondo Janardhan, quel problema era un problema secondario, poiché i server DNS di Facebook hanno notato la perdita di connessione alla dorsale e hanno smesso di pubblicizzare le informazioni di routing BGP che aiutano ogni computer su Internet a trovare i propri server. I server DNS funzionavano ancora, ma erano irraggiungibili.

La mancanza di connessioni di rete e la perdita di DNS hanno impedito ai tecnici di risolvere il problema e hanno disabilitato molti degli strumenti che normalmente utilizzano per la riparazione e la comunicazione, proprio come abbiamo sentito ieri.

Correlati

Che cos'è BGP e che ruolo ha avuto nella massiccia interruzione di Facebook?

Il post sul blog rileva che gli ingegneri hanno avuto ulteriori ostacoli dovuti alla sicurezza fisica e del sistema attorno a questo hardware cruciale. Una volta che hanno “attivato i protocolli di accesso sicuro” (questa apparentemente non è una parola in codice per “tagliare la porta del server con una smerigliatrice angolare), sono stati in grado di mettere online la spina dorsale e ripristinare lentamente i servizi con carichi gradualmente crescenti. Questo è uno dei motivi per cui ieri alcune persone hanno impiegato più tempo per ottenere l'accesso, poiché le esigenze di potenza e di elaborazione necessarie per accendere tutto in una volta potrebbero aver causato più arresti anomali.

Ecco fatto. Nessuna teoria della cospirazione e nessun tecnico che prende asce per proteggere le strutture per riaccendere il bambino di Mark Zuckerberg. Solo un bug in un comando che uno strumento di controllo ha mancato e per sei ore i servizi che collegano miliardi di persone sono scomparsi.