L'interruzione di AWS EC2 North Virginia si risolve ma alcuni problemi persistono

0
158

Chris Duckett

Di Chris Duckett e Steven J. Vaughan-Nichols | 27 settembre 2021 | Argomento: Cloud

datacentre-outage-gettyimages-912000448.jpg

Immagine: Getty Immagini

Amazon Web Services (AWS) non ha avuto una domenica sera rilassante prima della settimana lavorativa in arrivo, con le sue istanze EC2 nella sua principale regione USA-EAST-1 in difficoltà. E, a partire da lunedì mattina PDT, alcuni utenti continuano a segnalare problemi, sebbene la pagina di stato di AWS riporti ora “Il problema è stato completamente risolto e il servizio funziona normalmente”.

Tutto è iniziato alle 20. :11 PDT, quando la pagina di stato AWS ha annunciato che la piattaforma soffriva di prestazioni degradate nella sua zona di disponibilità principale.”Le istanze EC2 esistenti all'interno della zona di disponibilità interessata che utilizzano volumi EBS potrebbero anche subire danni a causa di IO bloccato al volume EBS collegato ( s),” un avviso ha detto 30 minuti dopo.

“Le istanze EC2 appena avviate all'interno della zona di disponibilità interessata potrebbero non avviarsi a causa del peggioramento delle prestazioni del volume.”

Alle 21:47 PDT, AWS ha affermato che l'errore riguardava il sovraccarico di Amazon Elastic Block Store e che i clienti dovrebbero “fallire” in un'altra zona di disponibilità.

“Continuiamo a fare progressi nella determinazione della causa principale del problema che causa il peggioramento delle prestazioni per alcuni volumi EBS in una singola zona di disponibilità (USE1-AZ2) nella regione US-EAST-1. Abbiamo apportato diverse modifiche per affrontare l'aumento delle risorse contesa all'interno del sottosistema responsabile del coordinamento degli host di archiviazione con il servizio EBS”, afferma l'avviso alle 22:16 PDT.

“Anche se questi cambiamenti hanno portato a qualche miglioramento, non abbiamo ancora visto un completo recupero per i volumi EBS interessati.”

Dopo altri 25 minuti, AWS ha affermato che la sua mitigazione ha funzionato, era in fase di implementazione completa e che i volumi EBS dovrebbero tornare alla normalità nella prossima ora.

Nel rapporto finale, alle 4:21 PDT, AWS ha riferito che “il problema è stato causato dall'aumento della contesa delle risorse all'interno del sottosistema EBS responsabile del coordinamento degli host di storage EBS. L'ingegneria ha lavorato per identificare la causa principale e risolvere il problema all'interno del sottosistema interessato. Alle 23:20 PDT, dopo aver distribuito un aggiornamento al sottosistema interessato, le prestazioni di I/O per i volumi EBS interessati hanno iniziato a tornare ai livelli normali. Entro le 00:05 del 27 settembre, le prestazioni di I/O per la stragrande maggioranza dei volumi EBS interessati in la zona di disponibilità di USE1-AZ2 funzionava normalmente.Tuttavia, a partire dalle 00:12 PDT, abbiamo riscontrato un rallentamento del recupero per un set più piccolo di volumi EBS interessati e prestazioni ridotte per un piccolo numero di volumi aggiuntivi in ​​USE1- Zona di disponibilità AZ2.”

AWS ha continuato: “Engineering ha studiato la causa principale e ha messo in atto misure di mitigazione per ripristinare le prestazioni per il set più piccolo di volumi EBS interessati rimanenti. Queste mitigazioni hanno lentamente migliorato le prestazioni per il set più piccolo rimanente di volumi EBS interessati, con operazioni complete ripristinate di 3: 45 AM PDT. Anche se quasi tutti i volumi EBS sono stati completamente ripristinati, continuiamo a lavorare sul ripristino di una piccola serie rimanente di volumi EBS. Comunicheremo lo stato di ripristino di questi volumi tramite Personal Health Dashboard. Mentre la maggior parte dei servizi interessati ha completamente recuperato, continuiamo a ripristinare alcuni servizi, inclusi database RDS e cluster Elasticache. Inoltre, comunicheremo lo stato di ripristino di questi servizi tramite Personal Health Dashboard.

Mentre AWS stava riscontrando problemi, anche altri siti sono stati colpiti da problemi di prestazioni.

“Tenete duro, gente! Il segnale è attualmente inattivo, a causa di un'interruzione dell'hosting che interessa parti del nostro servizio. Stiamo lavorando per portare backup”, ha twittato il servizio di messaggistica.

Nest ha affermato che i suoi utenti hanno avuto problemi ad accedere, ma la situazione è stata risolta.

Al momento della stesura, Xero ha affermato che soffriva di lentezza.

Per riassumere, come ha twittato in modo sarcastico Thaddeus E. Grugq, “Internet è stato progettato per sopravvivere alle guerre nucleari, non per il crollo dell'AWS”.

Aggiornamento alle 10:00 EDT, 27 settembre: è stato aggiunto un ulteriore aggiornamento sullo stato.

Copertura correlata

Amazon Web Services si prepara a ritirare uno dei suoi servizi di cloud computing più vecchi, AWS annuncia il piano di lancio AWS Australia per fatturazione e contrattazione più fluideAWS rende EKS Anywhere generalmente disponibileAWS lancerà la prima regione del data center in Nuova Zelanda entro il 2024AWS introduce Amazon MemoryDB per RedisNFL e AWS svela la nuova quarta metrica in basso per giudicare se il tuo allenatore preferito ha fatto la scelta giusta

Argomenti correlati :

Data center per la trasformazione digitale di Amazon CXO Innovation Storage Chris Duckett

Di Chris Duckett e Steven J. Vaughan-Nichols | 27 settembre 2021 | Argomento: Cloud