Misslyckas-långsam skala: När molnet slutar fungera

0
79

Noll

Om du någonsin har haft ett system misslyckas-långsam, du vet hur irriterande det är. Lamporna är tända, fläktarna är igång, men ingen är hemma. Är det programmet? I bakgrunden löper amok?

Naturligt, att hitta dessa problem tog ett minimum av timmar och ofta i dagar, veckor, eller månader. I ett fall har ett helt team av ingenjörer var drog igång ett projekt för att diagnostisera ett fel, till en kostnad av tiotusentals dollar.

Orsakerna

Uppsatsen sammanfattar orsakerna till 101 misslyckas-långsam händelser som de analyseras. Problem med nätverket var #1 orsaken, följt av PROCESSOR, hårddisk, SSD och minne. De flesta av nätverket misslyckanden var permanenta, medan SSD-Processorer och hade mest övergående fel.

Inte heller orsaken nödvändigtvis resten med långsam hårdvara, som i fallet ovan där en makt hungriga ansökan på vissa servrar som orsakas andra servrar för att sakta ner. I annat fall säljaren inte kunde reproducera användarens hög höjd fel läge vid havet nivå anläggning.

Lagring ta Bitar

Någon sysadmin plågas av nedgångar bör läsa detta dokument. Forskaren s taxonomi och exempel är säker på att vara till hjälp för att utvidga en vision av vad som skulle kunna hända.

För (en av flera) exempel

I ett villkor, en fläkt firmware skulle inte reagera tillräckligt snabbt när CPU-intensiva jobb var att köra, och som ett resultat av Processorer in termisk gas (lägre hastighet) innan fans fick chansen att kyla ner Processorer.

Allt som allt, en fascinerande samling av misslyckande statistik och typer. Och för dem av oss som inte klarar av stora grupper, en välkommen känsla av att många kulor undvek. Usch!

Artiga kommentarer välkomna, naturligtvis.

Relaterade Ämnen:

Hårdvara

Digital Omvandling

Datacenter

CXO

Innovation

Förvaring

0