Låst og helt nede: Facebooks kamp for at løse et massivt afbrydelse

0
145

En langvarig, global afbrydelse af Facebooks apps sendte virksomhedens ingeniører til at løse problemet på et af dets datacentre i Californien, ifølge to personer, der kender situationen.

Afbrydelsen, der begyndte omkring kl. 11:40 ET mandag, bragte alle Facebooks apps – herunder Instagram og WhatsApp – ned globalt og påvirkede milliarder af brugere og millioner af annoncører. Inde på Facebook brød afbrydelsen også næsten alle de interne systemer, som medarbejderne bruger til at kommunikere og arbejde. Fra 18.00 ET ser det ud til, at de fleste af tjenesterne er online igen.

Flere medarbejdere fortalte The Verge, at de tyede til at tale gennem deres arbejdsleverede Outlook-e-mail-konti, da Facebook hovedsagelig kører på en intern version af det sociale netværk, der i øjeblikket ikke er tilgængelig. Mens medarbejdere kunne e -maile hinanden, kunne de ikke sende eller modtage e -mails fra eksterne adresser.

Da Facebook kræver, at medarbejdere logger ind med deres arbejdskonti for at få adgang til værktøjer som Google Docs og Zoom, fungerede disse tjenester heller ikke, hvilket fik nogle medarbejdere til at bruge alternative tjenester som Apples FaceTime og Discord. Medarbejdere, der allerede var godkendt med ikke-Facebook-værktøjer som Google Docs, før afbrydelsen begyndte, havde stadig adgang.

Facebook -ingeniører blev sendt til et af dets vigtigste amerikanske datacentre i Californien for at gendanne service, hvilket betyder, at rettelsen ikke kunne foretages eksternt. Yderligere komplicerede sagerne brækkede afbrydelsen midlertidigt muligheden for nogle medarbejdere at få adgang til virksomhedens bygninger og konferencelokaler med deres badges, ifølge The New York Times, der først rapporterede, at ingeniører var blevet sendt til datacenteret.

I en e -mail til medarbejdere, der blev sendt kort efter, at tjenesten blev gendannet, sagde CTO Mike Schroepfer, at problemet “påvirker vores netværksstamme, der forbinder alle vores datacentre sammen.”

“Hvis du ikke aktivt arbejder på genoprettelsen, skal du være tålmodig og ikke skynde dig at genindlæse alt for at forhindre at bremse opbringningen” af netværket, advarede han i notatet, der blev set af The Verge.

Facebook har ikke givet en detaljeret forklaring på afbrydelsen, selvom eksterne eksperter siger, at det skyldtes et problem med netværksteknologien BGP eller Border Gateway Protocol.

”Ingen tegn på, at brugerdata blev kompromitteret som følge af denne nedetid ”

Sent mandag offentliggjorde Facebooks infrastrukturchef, Santosh Janardhan, et virksomhedsblogindlæg, der sagde, at afbrydelsen var et resultat af en “defekt konfigurationsændring” og tilføjede, at virksomheden “ikke har beviser for, at brugerdata blev kompromitteret som følge af denne nedetid. ”

“Vores teknikerteam har lært, at konfigurationsændringer på rygradsrouterne, der koordinerer netværkstrafik mellem vores datacentre, forårsagede problemer, der afbrød denne kommunikation,” skrev Janardhan. “Denne forstyrrelse af netværkstrafikken havde en kaskadende effekt på måden, vores datacentre kommunikerer, og stoppede vores tjenester.”

Opdater den 4. oktober, 18:33 ET: Bemærkede, at afbrydelsen ender, da Facebook og dens andre tjenester vender tilbage online.

Opdater den 4. oktober, 20:05 ET: Tilføjet flere oplysninger om afbrydelsen, der blev delt med Facebook -medarbejdere.

Opdater den 4. oktober, 21:06 ET: Tilføjede den bekræftede rapport om, at der blev brugt en vinkelsliber for at få adgang til serverbure.

Rettelse 4. oktober, 21:25 ET: En tidligere version af denne historie inkluderede en bekræftet rapport om, at Facebook brugte en vinkelsliber for at få adgang til serverbure. Reporteren har siden trukket bekræftelsen tilbage, og vi har fjernet påstanden fra denne historie.

Opdater den 4. oktober, 22:29 ET: Tilføjet flere detaljer fra Facebook om afbrydelsen.