Nul
Microsoft heeft gemaakt voor het algemene publiek een voorlopige root cause analysis (RCA) voor de September-4 cloud stroomstoring die beïnvloed klanten over de hele wereld. De Azuurblauwe engineering teams blijven om te onderzoeken het incident en zegt dat ze zal zorgen voor een meer gedetailleerde analyse “in de komende weken.”
Beïnvloed klanten ontvangen een krediet op basis van het Microsoft Azure Service Level Agreement in hun oktober facturen en afschriften, Microsoft ambtenaren gezegd in de post-mortem verslag.

Op 4 September, als ik geblogd oorspronkelijk een verlichting strike hit in de buurt van Microsoft South Central ONS datacenter regio, het uitspelen van een aantal Azure services, zoals Office 365, die verifieert via Azure Active Directory, voor veel klanten van Microsoft wereldwijd.
Microsoft ‘ s post-mortem overzicht opgemerkt dat de storm veroorzaakt “elektrische activiteit op de utility-aanbod, waardoor significante spanning zwelt.” Deze zwelt veroorzaakt een aantal van Azure datacenter over te dragen aan de generator en het afsluiten van de datacenter van de koelsystemen ook al waren er golfafvlakkers. Het datacenter nog steeds onderhouden vereiste operationele temperaturen door middel van een lastafhankelijke thermische buffer in het koelsysteem, maar zodra die buffer was uitgeput, de temperatuur ging omhoog en een geautomatiseerde showdown van de apparaten werd gestart.
Sommige hardware is beschadigd voordat deze kon worden afgesloten, met inbegrip van een “aanzienlijk aantal van storage servers en andere apparaten op het netwerk en power units. Aanwezige teams zijn begonnen met pogingen om te herstellen van de infrastructuur, waardoor het vervangen van defecte hardware, het migreren van servers gezonde servers en valideren van die gegevens was niet beschadigd.
Voor degenen die zich afvragen waarom Microsoft datacenter niet failover naar een back-up site: “De beslissing werd gemaakt om te werken in de richting van het herstel van de gegevens en niet overschakelen naar een ander datacenter, sinds een fail-over zou hebben geleid tot een beperkt verlies van gegevens als gevolg van het asynchrone karakter van geo-replicatie,” ambtenaren uitgelegd in de post.
Het afsluiten van het datacenter beïnvloed veel Azure services die afhankelijk zijn van de opslag servers in het datacenter. Onder de diensten treffer: pslag, Virtuele Machines, Toepassing van Inzichten, Cognitieve functies En Aangepaste Visie API, Backup, App Dienst (en App-Diensten voor Linux-en Web-App voor Containers), Azure Database voor MySQL, SQL Database, Azure Automatisering, Site Recovery, Redis Cache, Kosmos DB, Stream Analytics, Media Services, Azure Resource Manager, Azure VPN-gateways, PostgreSQL, Toepassing van Inzichten, Azure Machine Learning Studio, Azure Zoeken, Data Factory, HDInsight, IoT Hub, Analysis Services, Sleutel Kluis, Log Analytics, Azure Monitor, Azure Planner, Logica Apps, Databricks, ExpressRoute, Container Register, Application Gateway, Service Bus, Evenement Hub, Azure Portal IaaS-Ervaringen – Bot Service, Azure Batch, Service Stof en Visual Studio Team Services (VSTS).
Microsoft zegt dat “de overgrote meerderheid van deze diensten werden tenietgedaan door 11:00 UTC op September 5,” maar erkent volledige mitigatie is niet gebeurd tot 8:40 op 7 September.
Waarom zijn klanten buiten de VS Zuiden ook beïnvloed door deze reeks van gebeurtenissen? Volgens de post, was er “onvoldoende tolerantie voor Azure Service Manager,” de operations-management-service voor de “klassieke” resource typen. “Hoewel ASM is een wereldwijde service, het biedt geen ondersteuning voor automatische failover,” Microsoft executives zei. En Azure Resource Manager diensten buiten het Zuid-Centrale gebied ook werden beïnvloed door verschillende afhankelijkheden van ASM en andere gerelateerde diensten.
Azure Active Directory-ook te lijden had, de ambtenaren gezegd, te wijten aan de verificatie van het verkeer van de shut-down datacenter wordt doorgestuurd naar andere websites, in combinatie met een verhoogd tarief in de authenticatie aanvragen. De post details wat ging er mis met VSTS, Azure-Applicatie Inzichten en andere belangrijke diensten tijdens die reeks van gebeurtenissen in het begin van September.
Microsoft executives zei ze excuses aanbieden aan de getroffen klanten en op zoek zijn naar manieren om te verbeteren van de architectonische veerkracht na deze gebeurtenis. Het bedrijf is bezig met een gedetailleerde forensische analyse van de invloed datacenter hardware en systemen; een review van elke interne dienst met de afhankelijkheden van de Azure Service Manager; een onderzoek naar de mogelijkheid van het verplaatsen van deze ASM-afhankelijke diensten aan Azure Resource Manager, en een evaluatie van de toekomstige ontwerp van de hardware van opslag eenheden om de veerkracht te verhogen.
Aanbevolen verhalen
Hoe de iPhone verloren de kroon op het Apple-Horloge
Kritieke infrastructuur hebben om te werken als er malware op het of niet
Google herstelt ‘www’ Chrome Url ‘ s nadat gebruiker speling
Het oogsten van marihuana met robots is moeilijk. Hier is hoe een bedrijf dacht dat het uit is.
Verwante Onderwerpen:
Microsoft
Digitale Transformatie
Datacenters
CXO
Innovatie
Opslag
0