Come le nubi non riuscire

0
202

0

In carta Grigio Fallimento: Il Tallone di Achille di Cloud Sistemi informatici Huang Peng, Chuanxiong Guo, Lidong Zhou, e Giacobbe R. Lorch, di Microsoft Research, Yingnong Dang, Murali Chintalapati, e Randolph Yao, Microsoft Azure, si unirono insieme per esplorare il grigio guasto problema.

Il rovescio della medaglia di hyperscale

Essi definiscono grigio fallimenti

. . . guasti di componenti le cui manifestazioni sono abbastanza sottili e quindi a sfidare la rapida e definitiva di rilevamento.

Questi fallimenti può portare a cattive prestazioni, la perdita di pacchetti, difetti di I/O, memoria di santa ragione, e non fatali eccezioni.

Naturalmente, come il numero di componenti dell’infrastruttura, aumenta anche il numero di grigio fallimenti. Questo è hyperscale dark side.

Mentre a volte più lento le prestazioni possono sembrare un piccolo prezzo da pagare per i vantaggi dei servizi cloud, il pericolo di grigio fallimenti è di gran lunga maggiore. Come grigio errori si accumulano, lo stress su di sistemi sani cresce, e può portare a una cascata, un titolo che cattura massiva di interruzione.

Grigio fallimento radici profonde

Fault-tolerant sistemi di poggiare su tre pilastri: la ridondanza, la rilevazione del guasto e ripristino in caso di guasto. La ridondanza è un dato di fatto in infrastrutture cloud. I problemi arrivano nel rilevamento di guasti e di recupero.

I programmatori che scrivono il software strato raramente sono esperto di hardware che rende l’infrastruttura. Spesso fanno semplicistica ipotesi su come si riesce e ciò che deve essere rilevato.

Ma come qualsiasi hardware engineer si può dire, ci sono molti posti hardware può andare storto, senza schiantarsi o fumare. Intermittente hardware difetti, perdite di memoria, buffer overflow, e i processi in background possono portare a una riduzione delle prestazioni o intermittente grigio fallimento senza un palese sintomo che porta ad un riavvio del sistema o la sostituzione dell’hardware.

Differenziale observability

Il sintomo chiave di un grigio fallimento è quello che gli autori chiamano differenziale observability. Se un server ha rallentato a passo d’uomo, ma il suo battito cardiaco è regolare, un sistema di osservazione non è un problema, ma un sistema client. Che differenziale di observability.

Che porta gli autori a fare una serie di raccomandazioni per meglio individuare e correggere grigio fallimenti.

Non fare affidamento su un singolo indicatore, come il battito cardiaco, per la salute del sistema. Tenta di eseguire un’applicazione di visualizzazione, piuttosto che un hardware di vista, per rilevare grigio fallimenti. Leva di scala per il rilevamento. Per difficile grigio guasti è necessario raccogliere osservazioni da parte di migliaia di server e l’utilizzo di inferenza statistica per trovare il grigio non è riuscito componenti. Analisi temporale. Monitoraggio errori rilevanti indietro nel tempo per comprendere i piccoli difetti che ha portato all’interruzione aiuta affinare il processo di rilevamento.

L’Archiviazione Bit prendere

Grigio fallimenti sono un’estensione di una classe di problemi che il grande e compianto, Jim Gray chiamato “Heisenbugs”, errori temporanei che scompaiono quando si tenta di osservare a causa di piccole differenze nelle condizioni iniziali. A causa della loro natura transitoria, di un singolo strumento o metrica li cattura.

Questo significa che le infrastrutture di cloud computing sono condannati a fallire sotto il peso della loro crescente dimensione e complessità? No. Ma questo non significa che gli strumenti utilizzati per la loro gestione deve diventare sempre più sofisticati.

Infrastrutture e gli architetti devono diventare consapevoli di sfumature di grigio fallimento interazioni con la progettazione di sistema come descritto nella carta. Per esempio, la contro-intuitivo, la ricerca di una maggiore ridondanza può portare a una minore disponibilità.

Cortesi i commenti sono benvenuti, naturalmente. Bravo a Microsoft la Ricerca e l’Azzurro gente per la pubblicazione di questa carta. È bello sapere che MS ha alcune persone molto intelligenti badare al negozio.

0