Zero
Microsoft ha reso disponibile al pubblico un preliminare di root cause analysis (RCA) per il 4 settembre cloud interruzione che ha colpito i clienti in tutto il mondo. L’Azzurro le squadre di tecnici stanno continuando a indagare sull’incidente e dicono che fornirà un’analisi più dettagliata “nelle settimane a venire.”
Influenzato i clienti riceveranno un credito basato su Microsoft Azure Service Level Agreement in ottobre-le dichiarazioni di fatturazione, Microsoft funzionari ha detto nel post-mortem di report.

Il 4 settembre, come ho scritto un blog in origine, un sistema di illuminazione sciopero ha colpito vicino a Microsoft del centro-Sud CI datacenter regione, battendo un certo numero di servizi Azure e Office 365, che si autentica tramite Azure Active Directory, per molti di Microsoft clienti in tutto il mondo.
Microsoft post-mortem di sintesi notato che la tempesta ha causato “l’attività elettrica sulla rete di alimentazione, che ha causato significativi tensione gonfia.” Questi si gonfia causato alcuni di un Azzurro datacenter per il trasferimento di potenza del generatore e arrestare il datacenter del sistema di raffreddamento, anche se c’erano soppressori di picchi di tensione. Il datacenter ancora mantenuto necessarie temperature di funzionamento attraverso un carico termico di buffer nel sistema di raffreddamento, ma una volta che il buffer è stato impoverito, le temperature salirono e automatizzato prova di forza dei dispositivi è stato avviato.
L’hardware è stato danneggiato prima di riuscire ad arrestare, tra cui un numero significativo di server di archiviazione” e di altri dispositivi di rete e unità di potenza. Team in loco, ha iniziato i tentativi di recuperare l’infrastruttura, il che significa che la sostituzione di un componente hardware danneggiato, migrazione dei server a server integri e la verifica che i dati non sono danneggiati.
Per coloro che chiedono il motivo per cui Microsoft datacenter non failover su un sito di backup: “La decisione è stata presa a lavorare verso il recupero dei dati e non il failover su un altro datacenter, dal momento che un failover avrebbe comportato una limitata perdita di dati a causa della natura asincrona di geo replica,” i funzionari spiegato nel post.
L’arresto del datacenter influenzato molti servizi Azure, che dipendeva dal server di archiviazione nel data center. Tra i servizi colpito: torage, Macchine Virtuali, Applicazioni Intuizioni, Cognitive e Servizi Personalizzati Visione API, il Backup, il Servizio di App (App e Servizi per Linux e Web App per i Contenitori), Azure Database per MySQL, Database SQL Azure di Automazione, di Ripristino del Sito, Cache Redis, Cosmo DB, Streaming Analytics, Media, Servizi di Azure Gestione Risorse di Azure gateway VPN, PostgreSQL, Applicazione di Intuizioni, di Azure Machine Learning Studio, Azure, la Ricerca, i Dati di Fabbrica, HDInsight, IoT Hub, Analysis Services, Chiave di Volta, Di analisi di Log, Azure Monitor, Azure di Pianificazione, di Logica, di Applicazioni, Databricks, ExpressRoute, Contenitore del Registro di sistema, Gateway di Applicazione, il Servizio di Bus, Evento Hub, Portale Azure IaaS Esperienze – Bot Servizio, Azure Batch, Servizio di Tessuto e Visual Studio Team Services (VST).
Microsoft dice che “la stragrande maggioranza di questi servizi sono stati mitigati dalle 11:00 UTC del 5 settembre,” ma riconosce la piena di mitigazione non è accaduto fino a 8:40 il 7 settembre.Perché i clienti fuori degli stati UNITI regione Centrale del Sud influenzato anche da questa serie di eventi? Secondo il post, c’era “insufficiente flessibilità per Azure Service Manager,” le operazioni di gestione del servizio “classici” tipi di risorse. “Anche se ASM è un servizio globale, non supporta il failover automatico,” Microsoft dirigenti, ha detto. E Azure Risorsa di servizi di Gestione di al di fuori della regione Centrale del Sud, inoltre, sono stati penalizzati a causa di varie dipendenze ASM e altri servizi correlati.
Azure Active Directory, inoltre, è stata influenzata, hanno detto i funzionari, a causa del traffico di autenticazione dall’arresto datacenter di essere indirizzati ad altri siti, accoppiato con un aumento del tasso di richieste di autenticazione. Il post dettagli cosa è andato storto con VSTS, Azure Applicazione Intuizioni e altri servizi di primaria importanza durante la serie di eventi all’inizio di settembre.
Microsoft dirigenti hanno detto di scusarsi con i clienti interessati, e sono alla ricerca di modi per migliorare architettonico resilienza dopo questo evento. L’azienda fa una dettagliata analisi forense del influenzato datacenter hardware e sistemi; revisione di ogni servizio interno con dipendenze da Azure Service Manager; un’indagine della possibilità di spostamento di queste ASM-dipendente servizi di Azure Gestione Risorse; e una valutazione della futura progettazione hardware di unità di archiviazione per aumentare la resilienza.
Storie
Come l’iPhone perso la sua corona per Apple Watch
Infrastrutture critiche dovrà funzionare se non c’è il malware o non
Google ripristina ‘www’ a Chrome Url dopo la reazione dell’utente
Raccolta di marijuana con robot è difficile. Ecco in che modo l’azienda capito.
Argomenti Correlati:
Microsoft
La Trasformazione Digitale
Centri Dati
CXO
L’innovazione
Archiviazione
0