Hoe wolken mislukken

0
141

0

In de papier-Grijs Verzuim: De achilleshiel van Cloud-Schaal computer Systemen wetenschappers Peng Huang, Chuanxiong Guo, Lidong Zhou, en Jacob R. Lorch, van Microsoft Research, Yingnong Dang, Murali Chintalapati, en Randolph Yao, Microsoft Azure, de handen ineengeslagen om te verkennen van de grijze storing probleem.

Het nadeel van de op hyperscale

Zij definiëren grijs storingen

. . . onderdeel storingen waarvan de verschijnselen zijn vrij subtiel en dus trotseren snelle en definitieve detectie.

Deze subtiele storingen kunnen leiden tot slechte prestaties, pakketten verloren gaan, defecte I/O, geheugen dorsen, en niet-fatale uitzonderingen.

Natuurlijk, als het aantal onderdelen van de infrastructuur toeneemt, neemt het aantal grijze storingen. Dit is hyperscale de donkere kant.

Terwijl af en toe trager lijkt misschien een kleine prijs om te betalen voor de voordelen van cloud-diensten, het gevaar van grijze fouten is veel groter. Als de grijze fouten stapelen zich op, de stress op een gezonde systemen groeit, en kan leiden tot een trapsgewijze, spraakmakend massale uitval.

Grijs verzuim ‘ s diepe wortels

Fouttolerante systemen rust op drie pijlers: redundantie, fout-detectie en herstel van fouten. Redundantie is een gegeven in de cloud-infrastructuur. De problemen komen in foutdetectie en-herstel.

De codeurs die schrijven de software laag zijn zelden expert in de hardware, dat maakt de infrastructuur. Vaak maken ze simplistische aannames over hoe het mislukt, en wat er moet worden gedetecteerd.

Maar als hardware engineer kan je vertellen, er zijn veel plaatsen hardware fout kan gaan zonder te crashen of roken. Intermittant hardwareproblemen, memory leaks, buffer overflows, en de achtergrond banen kan leiden tot een verminderde prestaties of intermitterende grijs verzuim zonder dat een openlijke symptoom dat leidt tot een systeem herstart of vervanging van hardware.

Differentiële observability

Het belangrijkste symptoom van een grijze mislukking is wat de auteurs noemen van differentiële observability. Als een server is vertraagd tot een crawl, maar de hartslag is een regelmatige, een observing system niet een probleem, maar een client systeem. Dat is differentiële observability.

Dat leidt de auteurs maken een aantal aanbevelingen om beter te detecteren en te corrigeren grijs storingen.

Vertrouw niet op één enkele indicator, zoals hartslag, voor de gezondheid van uw systeem. Probeer een toepassing weergeven, in plaats van een hardware te bekijken, op te sporen grijs storingen. Leverage schaal voor de detectie. Voor moeilijk grijs storingen mogelijk moet u het verzamelen van waarnemingen van duizenden servers en gebruik van statistische inferentie te vinden op de grijze-defecte onderdelen. Temporele analyse. Het bijhouden van aanzienlijke tekortkomingen terug in de tijd om te begrijpen van de kleine gebreken die hebben geleid tot de uitval helpt scherper van het detectie proces.

De Opslag van Bits nemen

Grijs storingen zijn een extensie van de klasse van de insecten die in de late, grote, Jim Gray van de zogenaamde “Heisenbugs”, tijdelijke fouten die verdwijnen wanneer u probeert om ze te observeren, vanwege subtiele verschillen in de initiële voorwaarden. Vanwege hun tijdelijke aard, is er geen enkel instrument of gegeven zullen ze vast.

Dit betekent dat de cloud-infrastructuren zijn gedoemd te mislukken onder het gewicht van hun toenemende omvang en complexiteit? Nee. Maar het betekent wel dat de instrumenten die gebruikt worden om ze te beheren moet geavanceerder geworden.

En infrastructuur architecten moeten zich bewust zijn van de subtiliteiten van grijs verzuim interacties met het ontwerp van het systeem zoals besproken in het papier. Bijvoorbeeld, de contra-intuïtieve bevinding dat een grotere redundantie kan leiden tot een lagere beschikbaarheid.

Hoffelijk opmerkingen van harte welkom, natuurlijk. Bravo aan Microsoft Research en het Azuurblauw van de mensen voor de publicatie van dit papier. Het is leuk om te weten dat MS heeft een aantal zeer slimme mensen op de winkel passen.

0