Fail-lenti a scala: Quando la nuvola si smette di lavorare

0
108

Zero

Se hai mai avuto un sistema fail-lento, si sa come esasperante. Le luci sono accese, le ventole sono in funzione, ma nessuno è in casa. È il software? Un processo in background per eseguire amok?

Naturalmente, la ricerca di questi problemi ha preso un minimo di ore e, spesso, giorni, settimane, o addirittura mesi. In un caso, un intero team di ingegneri è stato tirato fuori un progetto per diagnosticare un bug, a un costo di decine di migliaia di dollari.

Cause

Il documento riassume le cause dei 101 fail-lento incidenti sono stati analizzati. I problemi di rete sono il #1 causa, seguita dalla CPU, disco SSD e la memoria. La maggior parte dei guasti sono permanenti, mentre l’SSD e Cpu avuto più errori transitori.

Né la causa principale necessariamente resto con l’hardware lento, come nel caso di sopra, dove un affamato di potere applicazione su alcuni server causato altri server a rallentare. In un altro caso il venditore non riusciva a riprodurre l’utente ad elevata altitudine delle modalità di guasto al loro livello del mare impianto.

L’Archiviazione Bit prendere

Qualsiasi amministratore di sistema afflitto da rallentamenti dovrebbe leggere questo libro. Il ricercatore tassonomia e gli esempi sono sicuro di essere utile per ampliare la propria visione di ciò che potrebbe accadere.

Per (uno in più), ad esempio,

In una condizione, un fan del firmware non reagire abbastanza rapidamente quando la CPU lavori sono in esecuzione, e di conseguenza la Cpu è entrato termica del motore (velocità ridotta) prima che i fan hanno avuto la possibilità di raffreddare la Cpu.

Tutti in tutto, affascinante compendio del fallimento statistiche e tipi. E per quelli di noi che non gestire cluster di grandi dimensioni, un benvenuto senso di molti proiettili schivato. Wow!

Cortesi i commenti sono benvenuti, naturalmente.

Argomenti Correlati:

Hardware

La Trasformazione Digitale

Centri Dati

CXO

L’innovazione

Archiviazione

0