'Alt dette skjedde veldig fort': Hvordan en rutinemessig hendelse brakte alt ned på Facebook

0
135

 Liam Tung

Av Liam Tung | 6. oktober 2021 | Tema: Produktivitet

Du kunne ikke bruke WhatsApp eller Instagram fordi Facebooks datasentre ble fullstendig frakoblet etter at en tilsynelatende daglig hendelse forårsaket en katastrofal driftsstans.

Facebooks timelange strømbrudd på søndag var en sterk påminnelse om hvor avhengige mennesker har blitt av ett selskaps datasentre som driver verdens største sosiale nettverk.

Som ZDNets Steven J. Vaughan-Nichols rapporterte denne uken, fungerte ikke Facebooks servere for sin internettadressebok-en domenenavnserver (DNS)-noe som gjorde Facebook, WhatsApp og Instagram utilgjengelige av årsaker som de fleste av de to milliarder brukerne ikke forstår.

Facebooks DNS ble ødelagt fordi ruter til Border Gateway Protocol (BGP) til Facebooks nettsteder mislyktes. DNS oversetter ord som “Google” til numerisk internett eller IP -adresser, som BGP “annonserer” til internett, slik at PCer og smarttelefoner kan koble seg til nettsteder.

Den sosiale mediegiganten har nå tilbudt en mer detaljert redegjørelse for hva som fikk verdens største meldingssystem til å forsvinne i timevis på søndag. Hendelsen fremhever hvordan Facebook i seg selv har blitt et eneste punkt for en fiasko for globale meldinger.

Selve hendelsen har imidlertid en kjedelig forklaring. Facebooks labyrintiske nettverk sprakk fordi en “rutinemessig” vedlikeholdsjobb gikk galt på en måte som nettverkene og datasentrene ikke var bygget for å håndtere. Det forårsaket til slutt en “fullstendig frakobling” mellom Facebook -datasentre og internett, noe som gjorde Facebook, WhatsApp og Instagram utilgjengelige.

“Dette strømbruddet ble utløst av systemet som administrerer vår globale ryggradskapasitet,” forklarte Santosh Janardhan, visepresident for ingeniørfag på Facebook i et blogginnlegg med tittelen “Flere detaljer om strømbruddet 4. oktober”.

“Ryggraden er nettverket Facebook har bygget for å koble alle våre databehandlingsfasiliteter sammen, som består av titusenvis av miles med fiberoptiske kabler som krysser kloden og kobler alle våre datasentre,” fortsatte han. .

“Dette var kilden til gårsdagens strømbrudd. Under en av disse rutinemessige vedlikeholdsjobbene ble det utstedt en kommando med den hensikt å vurdere tilgjengeligheten av global ryggradskapasitet, som utilsiktet fjernet alle tilkoblinger i ryggradenettverket, og effektivt koblet Facebook datasentre globalt. “.

Avbruddet avslørte hvor avhengige mennesker er av påliteligheten til Facebooks infrastruktur og følger den forsøkene på å slå sammen WhatsApp, Facebook Messenger og Instagram -meldinger.

Det skjedde også da Facebook ble gransket ved en senatforespørsel om etikk og håndtering av feilinformasjon på plattformene, som fulgte en lekkasje av interne dokumenter publisert av Wall Street Journal i forrige måned og avslørte blant annet at Facebook visste at Instagram laget kroppsbilde problemer verre for en av tre tenåringsjenter.

Janardhan avslørte at Facebooks infrastruktur ikke var utstyrt for å takle hastigheten på hendelser som skjedde.

“Alt dette skjedde veldig fort,” innrømmer han.

“For å sikre pålitelig drift deaktiverer våre DNS -servere disse BGP -annonsene hvis de ikke selv kan snakke med datasentrene våre, siden dette er en indikasjon på en usunn nettverkstilkobling,” forklarer han.

“I det siste strømbruddet ble hele ryggraden fjernet fra drift, noe som gjorde at disse stedene erklærte seg usunne og trakk tilbake BGP -annonsene. Sluttresultatet var at DNS -serverne våre ble utilgjengelige selv om de fortsatt var i drift. Dette gjorde det umulig for resten av internett å finne serverne våre. ”

Relaterte emner:

Smart Office CXO SMBs Tech Industry Enterprise Software  Liam Tung

Av Liam Tung | 6. oktober 2021 | Tema: Produktivitet