AWS: Här är vad som gick fel i vårt stora molnavbrott

0
168

Liam Tung Skrivet av Liam Tung, bidragsgivare Liam Tung Liam Tung Contributor

Liam Tung är en australisk affärsteknikjournalist som bor några för många svenska mil norr om Stockholm för hans smak. Han tog en kandidatexamen i ekonomi och konst (kulturstudier) vid Sydneys Macquarie University, men hackade sig (utan norrön eller skadlig kod för den delen) in i en karriär som företagsteknik-, säkerhets- och telekommunikationsjournalist med ZDNet Australia.

Fullständig bio den 13 december 2021 | Ämne: Företagsprogramvara Hantera Multicloud Watch Now

Amazon Web Services (AWS) avbryts sällan oväntat, men du kan förvänta dig en detaljerad förklaring när ett stort avbrott inträffar.

Det senaste av AWS större avbrott inträffade kl. 07.30 PST tisdagen den 7 december, varade i fem timmar och påverkade kunder som använde vissa applikationsgränssnitt i US-EAST-1-regionen. I ett offentligt moln av AWS skala är ett avbrott på fem timmar en stor incident.

AWS-kontrollplan används för att skapa och hantera AWS-resurser. Dessa kontrollplan påverkades eftersom de finns på det interna nätverket. Så även om EC2-instanser inte påverkades, var de EC2 API:er som kunderna använder för att lansera nya EC2-instanser. Högre latens och felfrekvenser var de första effekterna som kunderna såg klockan 7:30 PST.

SE: Molnsäkerhet 2021: En affärsguide till viktiga verktyg och bästa praxis

När den här kapaciteten försvunnit har kunderna hade problem med Amazon RDS (relationella databastjänster) och Amazon EMR big data-plattformen, medan kunder med Amazon Workspaces hanterade desktopvirtualiseringstjänst inte kunde skapa nya resurser.

På samma sätt påverkades inte AWS:s Elastic Cloud Balancers (ELB) direkt, men eftersom ELB API:er var det kunde kunderna inte lägga till nya instanser till befintliga ELB:er så snabbt som vanligt.

Route 53 (CDN) API:er försämrades också i fem timmar, vilket hindrade kunder från att ändra DNS-poster. Det fanns också inloggningsfel till AWS-konsolen, latens som påverkade Amazon Secure Token Services för tredjepartsidentitetstjänster, förseningar till CloudWatch och försämrad åtkomst till Amazon S3-buckets, DynamoDB-tabeller via VPC Endpoints och problem med att anropa serverlösa Lambda-funktioner.

Incidenten den 7 december delade minst ett drag med ett stort avbrott som inträffade den här gången förra året: det hindrade AWS från att snabbt kommunicera med kunder om incidenten via AWS Service Health Dashboard.

“Försämringen av våra övervakningssystem försenade vår förståelse av den här händelsen, och överbelastningen av nätverket försämrade vår Service Health Dashboard-verktyg från att korrekt misslyckas över till vår standby-region,” förklarade AWS.

Dessutom är AWS supportkontaktcenter beroende av AWS interna nätverk, så personalen kunde inte skapa nya ärenden med normal hastighet under den fem timmar långa avbrottet.

AWS säger att de kommer att släppa en ny version av sin tjänst Health Dashboard tidigt 2022, som kommer att köras över flera regioner för att “se till att vi inte har förseningar i kommunikationen med kunder.”

Molnavbrott inträffar. Google Cloud har haft sin prisandel och Microsoft fick i oktober förklara sitt åtta timmar långa avbrott. Även om det är sällsynt, är avbrotten en påminnelse om att det offentliga molnet kan vara mer tillförlitligt än konventionella datacenter, men saker går fel, ibland katastrofalt, och kan påverka ett stort antal kritiska tjänster.

“Slutligen vill vi be om ursäkt för den påverkan som denna händelse orsakade för våra kunder”, säger AWS. “Även om vi är stolta över vår meritlista vad gäller tillgänglighet vet vi hur viktiga våra tjänster är för våra kunder, deras applikationer och slutanvändare och deras företag. Vi vet att denna händelse påverkade många kunder på ett betydande sätt. Vi kommer att göra allt vi kan att lära av den här händelsen och använda den för att förbättra vår tillgänglighet ytterligare.”

Enterprise Software

Windows 11: Så här får du Microsofts gratis uppdatering av operativsystem De bästa Linux-distroerna för nybörjare 2021 Windows 10 är en säkerhetskatastrof som väntar på att hända. Hur kommer Microsoft att städa upp sin röra? AWS omfamnar Fedora Linux för sitt molnbaserade Amazon Linux Cloud | Big Data Analytics | Innovation | Teknik och arbete | Samarbete | Utvecklaren