Hva tok Facebook ned

0
110

 Steven J. Vaughan-Nichols

Av Steven J. Vaughan-Nichols for nettverk | 5. oktober 2021 | Tema: Cloud

 Facebook er dagens AOL Se nå

Det tok omtrent seks timer, en ny rekord for nedetid på Facebook, men Facebook er endelig tilbake. Hva skjedde? Her er det vi vet så langt.

Det gamle feilsøkingsuttrykket for nettverk er at når det går galt, er det DNS. Denne gangen ser domenenavnserver (DNS) ut til å være symptomet på årsaken til Facebooks globale feil. Den sanne årsaken er at det ikke finnes noen fungerende ruter til Border Gateway Protocol (BGP) til Facebooks nettsteder.

BGP er den standardiserte utvendige gateway-protokollen som brukes til å utveksle ruting og tilgjengelighetsinformasjon mellom internettets autonome systemer (AS). De fleste mennesker, faktisk de fleste nettverksadministratorer, trenger aldri å forholde seg til BGP.

Mange oppdaget at Facebook ikke lenger var oppført på DNS. Det var faktisk spøk innlegg som tilbyr å selge deg Facebook.com -domenet.

Også: Facebook er AOL for 2021

Cloudflare VP Dane Knecht var den første som rapporterte det underliggende BGP -problemet. Dette betydde, som Kevin Beaumont, tidligere Microsofts sjef for sikkerhetsoperasjonssenter, twitret: “Ved ikke å ha BGP -kunngjøringer for DNS -navneservere, faller DNS fra hverandre = ingen kan finne deg på internett. Samme med WhatsApp btw. Facebook har i utgangspunktet deplatformert seg seg selv fra sin egen plattform. ”

Huff.

Så irriterende som dette er for deg, kan det være enda mer irriterende for Facebook -ansatte. Det er rapporter om at Facebook -ansatte ikke kan komme inn i bygningene deres fordi deres “smarte” merker og dører også ble deaktivert av denne nettverksfeilen. Hvis det er sant, kan ikke Facebooks folk bokstavelig talt gå inn i bygningen for å fikse ting.

I mellomtiden rapporterte Reddit -bruker u/ramenporn, som hevdet å være en Facebook -ansatt som jobber med å bringe det sosiale nettverket tilbake fra de døde, før han slettet kontoen og meldingene sine, at “DNS for FB -tjenester har blitt påvirket og dette er sannsynligvis et symptom på det faktiske problemet, og det er at BGP -peering med Facebook -peering -rutere har gått ned, sannsynligvis på grunn av en konfigurasjonsendring som trådte i kraft kort tid før strømbruddene skjedde (startet omtrent 1540 UTC). ”

Dette enorme utbruddet tok store deler av internett frakoblet

Han fortsatte, “Det er folk som nå prøver å få tilgang til peering -ruterne for å implementere reparasjoner, men menneskene med fysisk tilgang er atskilt fra menneskene med kunnskap om hvordan de faktisk kan autentisere seg til systemene og folk som vet hva de faktisk skal gjøre, så det er nå en logistisk utfordring med å få all den kunnskapen samlet. En del av dette skyldes også lavere bemanning i datasentre på grunn av pandemiske tiltak. ”

Ramenporn uttalte også at det ikke var et angrep, men en feil konfigurasjonsendring gjort via et webgrensesnitt. Det som virkelig stinker – og hvorfor Facebook fortsatt er nede timer senere – er at siden både BGP og DNS er nede, er “forbindelsen til omverdenen nede, fjernadgang til disse verktøyene eksisterer ikke lenger, så nødprosedyren er å få fysisk tilgang til peering -ruterne og gjøre all konfigurasjonen lokalt. ” Selvfølgelig vet ikke teknikerne på stedet hvordan de skal gjøre det, og senior nettverksadministratorer er ikke på stedet. Dette er kort sagt et stort rot.

Facebook kom ikke umiddelbart om hva som hadde gått galt og hvordan det ble løst. Timer etter at Facebook og alle dets relaterte tjenester gikk ned, twitret Facebooks CTO Mike Schroepfer: “Vi opplever nettverksproblemer og team jobber så raskt som mulig for å feilsøke og gjenopprette så raskt som mulig.” Etterpå, da Facebook begynte å komme opp, la han til: “Facebook -tjenester kommer tilbake online nå – det kan ta litt tid å komme opp til 100%. For hver liten og stor bedrift, familie og enkeltperson som er avhengig av oss, beklager jeg . “

Som en tidligere nettverksadministrator som jobbet på internett på dette nivået, regnet jeg med at Facebook ville stå nede i flere timer. Jeg hadde også rett i at det skulle vise seg å være Facebooks lengste og alvorligste feil hittil. Jeg lurer på nøyaktig hva som gikk galt og hvordan det ble løst. Følg med. Vi rapporterer om det så snart vi vet mer informasjon.

Relaterte historier:

Facebook går ned, sammen med Instagram og WhatsAppPhysics forklarer hvorfor det ikke er informasjon om sosiale medierRask, enkel (og gratis) måte å gjøre Facebook mer utholdelig

Relaterte emner:

Cloud Digital Transformation datasentre CXO Innovation Storage  Steven J . Vaughan-Nichols

Av Steven J. Vaughan-Nichols for Networking | 5. oktober 2021 | Tema: Cloud