Vad tog ner Facebook

0
170

 Steven J. Vaughan-Nichols

Av Steven J. Vaughan-Nichols för nätverk | 5 oktober 2021 | Ämne: Cloud

 Facebook är dagens AOL Watch Now

Det tog ungefär sex timmar, ett nytt rekord för Facebook -stillestånd, men Facebook är äntligen tillbaka. Vad hände? Här är vad vi vet hittills.

Det gamla felsökningsordet för nätverket är att när det går fel är det “DNS”. Den här gången verkar Domain Name Server (DNS) vara symtomen på grundorsaken till Facebooks globala misslyckande. Den verkliga orsaken är att det inte finns några fungerande Border Gateway Protocol (BGP) rutter till Facebooks webbplatser.

BGP är det standardiserade externa gateway-protokollet som används för att utbyta information om routing och tillgänglighet mellan autonoma system på högsta nivå på internet (AS). De flesta människor, faktiskt de flesta nätverksadministratörer, behöver aldrig hantera BGP.

Många upptäckte att Facebook inte längre var listat på DNS. Det fanns faktiskt skämtinlägg som erbjöd dig att sälja Facebook.com -domänen.

Också: Facebook är AOL för 2021

Cloudflare VP Dane Knecht var den första som rapporterade det bakomliggande BGP -problemet. Detta innebar, som Kevin Beaumont, tidigare Microsofts chef för säkerhetsoperationscenter, twittrade: “Genom att inte ha BGP -meddelanden för dina DNS -namnservrar faller DNS sönder = ingen kan hitta dig på internet. Samma med WhatsApp btw. Facebook har i princip deplattformats sig själva från sin egen plattform. ”

Oj.

Så irriterande som det här är för dig kan det vara ännu mer irriterande för Facebook -anställda. Det finns rapporter om att Facebook -anställda inte kan komma in i deras byggnader eftersom deras “smarta” märken och dörrar också inaktiverades av detta nätverksfel. Om det är sant kan Facebooks människor bokstavligen inte komma in i byggnaden för att fixa saker.

Under tiden rapporterade Reddit -användare u/ramenporn, som påstod sig vara en Facebook -anställd som arbetade med att få det sociala nätverket tillbaka från de döda, innan han raderade sitt konto och hans meddelanden, att “DNS för FB -tjänster har påverkats och detta är sannolikt ett symptom på det faktiska problemet, och det är att BGP -peering med Facebook -peering -routrar har gått ner, mycket troligtvis på grund av en konfigurationsändring som trädde i kraft strax innan avbrotten inträffade (började ungefär 1540 UTC). ”

Detta stora avbrott tog stora delar av internet offline

Han fortsatte, “Det finns människor som nu försöker få åtkomst till peering -routrarna för att implementera korrigeringar, men personerna med fysisk åtkomst är separerade från personerna med kunskap om hur man faktiskt autentiserar sig till systemen och människor som vet vad de faktiskt ska göra, så det finns nu en logistisk utmaning med att få all den kunskapen enhetlig. En del av detta beror också på lägre bemanning i datacenter på grund av pandemiska åtgärder. ”

Ramenporn uppgav också att det inte var en attack, utan en felaktig konfigurationsändring som gjorts via ett webbgränssnitt. Det som verkligen stinker – och varför Facebook fortfarande är nere timmar senare – är att eftersom både BGP och DNS är nere, är “anslutningen till omvärlden nere, fjärråtkomst till dessa verktyg finns inte längre, så nödproceduren är att få fysisk åtkomst till peering -routrarna och göra all konfiguration lokalt. ” Naturligtvis vet teknikerna på plats inte hur man gör det och högre nätverksadministratörer finns inte på plats. Detta är kort sagt en stor röra.

Facebook kom inte omedelbart om vad som hade gått fel och hur det åtgärdades. Timmar efter att Facebook och alla dess relaterade tjänster gick ner twittrade Facebooks CTO Mike Schroepfer: “Vi upplever nätverksproblem och team arbetar så snabbt som möjligt för att felsöka och återställa så snabbt som möjligt.” Efteråt, när Facebook började komma upp, tillade han, “Facebook -tjänster som kommer tillbaka online nu – kan ta lite tid att komma till 100%. För alla små och stora företag, familj och enskilda som är beroende av oss, jag är ledsen . ”

Som en tidigare nätverksadministratör som arbetade på internet på denna nivå, förväntade jag mig att Facebook skulle vara nere i timmar. Jag hade också rätt i att det skulle visa sig vara Facebooks längsta och allvarligaste misslyckande hittills. Jag undrar exakt vad som gick fel och hur det åtgärdades. Håll ögonen öppna. Vi kommer att rapportera om det så snart vi vet mer information.

Relaterade berättelser:

Facebook går ner, tillsammans med Instagram och WhatsAppPhysics förklarar varför det inte finns information om sociala medier Snabbt, enkelt (och gratis) sätt för att göra Facebook mer uthärdligt

Relaterade ämnen:

Cloud Digital Transformation Datacenter CXO Innovation Storage Steven J. Vaughan-Nichols

Av Steven J. Vaughan-Nichols för nätverk | 5 oktober 2021 | Ämne: Cloud