La massiccia interruzione che ha bloccato Facebook, i suoi servizi associati (Instagram, WhatsApp, Oculus, Messenger), la sua piattaforma per le aziende e la rete interna dell'azienda è iniziata con la manutenzione ordinaria.
Secondo il vicepresidente dell'infrastruttura Santosh Janardhan, un comando emesso durante la manutenzione ha inavvertitamente causato l'arresto della dorsale che collega tutti i data center di Facebook, ovunque nel mondo.
< p id="ZFpNTp">Questo di per sé è già abbastanza grave, ma come abbiamo già spiegato, il motivo per cui non è possibile utilizzare Facebook è che le informazioni di routing DNS e BGP che puntano ai suoi server sono improvvisamente scomparse. Secondo Janardhan, quel problema era un problema secondario, poiché i server DNS di Facebook hanno notato la perdita di connessione alla dorsale e hanno smesso di pubblicizzare le informazioni di routing BGP che aiutano ogni computer su Internet a trovare i propri server. I server DNS funzionavano ancora, ma erano irraggiungibili.
L'interruzione di ieri dei nostri prodotti è stata grave, quindi condividiamo qui qualche dettaglio in più su cosa è successo esattamente, come è successo , e cosa ne stiamo imparando: https://t.co/IXRt572h4c
— Mike Schroepfer (@schrep) 5 ottobre 2021
La mancanza di connessioni di rete e la perdita di DNS hanno impedito ai tecnici di risolvere il problema e hanno disabilitato molti degli strumenti che normalmente utilizzano per la riparazione e la comunicazione, proprio come abbiamo sentito ieri.
Correlati
Che cos'è BGP e che ruolo ha avuto nella massiccia interruzione di Facebook?
Il post sul blog rileva che gli ingegneri hanno avuto ulteriori ostacoli dovuti alla sicurezza fisica e del sistema attorno a questo hardware cruciale. Una volta che hanno “attivato i protocolli di accesso sicuro” (questa apparentemente non è una parola in codice per “tagliare la porta del server con una smerigliatrice angolare), sono stati in grado di mettere online la spina dorsale e ripristinare lentamente i servizi con carichi gradualmente crescenti. Questo è uno dei motivi per cui ieri alcune persone hanno impiegato più tempo per ottenere l'accesso, poiché le esigenze di potenza e di elaborazione necessarie per accendere tutto in una volta potrebbero aver causato più arresti anomali.
Ecco fatto. Nessuna teoria della cospirazione e nessun tecnico che prende asce per proteggere le strutture per riaccendere il bambino di Mark Zuckerberg. Solo un bug in un comando che uno strumento di controllo ha mancato e per sei ore i servizi che collegano miliardi di persone sono scomparsi.