Un “incidente” è definito come un tempo di inattività non pianificato, o interruzione, che interrompe parzialmente o completamente un servizio offrendo una qualità del servizio inferiore agli utenti. Se l'Incidente è grave, allora è una “crisi”.
Quando inizia a influenzare la qualità del servizio fornito ai clienti, diventa un problema, poiché la maggior parte dei fornitori di servizi ha accordi sul livello di servizio con il consumatori che spesso prevedono sanzioni integrate.
Mentre continuo la mia ricerca in queste aree e dopo aver parlato con più clienti, sono giunto alla conclusione che la maggior parte delle aziende non è predisposta per gestire incidenti o crisi relativi all'IT in tempo reale. Le classiche aziende legacy sono impostate per affrontare le crisi in modi antiquati, senza considerare il modello Cloud o SaaS, e lo sfogo dei social media porta un'altra stranezza. Le nuove aziende native digitali non mettono molta enfasi sulla gestione delle crisi, da quello che ho visto.
Soprattutto con la necessità e la richiesta di “always-on”, gli incidenti non aspettano un momento conveniente. I problemi possono verificarsi, e spesso si verificano, nei fine settimana, nei giorni festivi o nei giorni feriali quando nessuno presta attenzione. Quando si verifica un incidente, un'azienda adeguatamente preparata deve essere in grado di identificare, valutare, gestire, risolvere e comunicarlo efficacemente ai clienti.
Un'altra questione chiave da notare qui è la differenza tra la sicurezza e gli incidenti di servizio. Un incidente di sicurezza si verifica quando si verifica una perdita di dati o una violazione dei dati. La mitigazione e la gestione delle crisi implicano un diverso insieme di procedure, dalla disabilitazione degli account alla notifica delle parti interessate e dei proprietari degli account e all'escalation del problema ai team di sicurezza e identità. Un incidente di servizio si verifica quando si verifica un'interruzione del servizio, parziale o totale. Deve essere inoltrato a DevOps, sviluppatori e team operativi. Poiché sono simili, alcune delle procedure di gestione delle crisi potrebbero sovrapporsi. Ma se i tuoi team di supporto non sono a conoscenza del giusto processo di escalation, potrebbero inviare avvisi critici sul canale sbagliato quando i minuti contano in una situazione critica. Per il bene di questo articolo, parlerò solo delle interruzioni del servizio, sebbene si possano tracciare molti paralleli anche con un incidente di sicurezza.
Evita gli incidenti quando possibile
Evitare è meglio che risolvere i problemi in qualsiasi situazione. Ci sono molte cose che un'azienda può fare per evitare situazioni, come audit di vulnerabilità, monitoraggio di allerta precoce, audit del profilo del codice, comitati di revisione delle versioni, rilevamento di anomalie, ecc. Si dovrebbe anche investire in adeguate soluzioni di osservabilità, monitoraggio, registrazione e tracciamento. Ho scritto anche molti articoli su quelle aree; sono troppo complesse per essere trattate in dettaglio qui.
Preparati all'imprevisto
Con la maggior parte delle aziende, non c'è preparazione o piano d'azione quando si verifica un incidente. Nel mondo digitale, gli incidenti non aspettano giorni per essere risolti o gestiti. Se lasci che i social media prendano il sopravvento, lo farà. A volte può anche avere una mente propria. Quando non stai raccontando la storia, gli esperti dei social media racconteranno la tua storia per te.
Identifica l'incidente prima che lo facciano gli altri
Ho scritto alcuni articoli su questo argomento. Nel mio ultimo articolo, “Nell'economia digitale, dovresti fallire velocemente, ma devi anche riprenderti velocemente”, discuto della necessità di velocità per trovare i problemi più velocemente di quanto possano fare i tuoi clienti o partner. Lo sviluppo del software ha adottato completamente i principi DevOps e Agile, ma i team Ops non hanno abbracciato completamente le metodologie DevOps. Ad esempio, i vecchi sistemi di monitoraggio, siano essi sistemi di monitoraggio delle prestazioni delle applicazioni (APM), monitoraggio dell'infrastruttura o sistemi di monitoraggio dell'esperienza digitale (DEM), possono anche rilevare se si verifica un'interruzione del servizio abbastanza rapidamente. Tuttavia, l'identificazione del microservizio che causa il problema o delle modifiche attive che hanno causato questo problema è complessa nel panorama attuale. Ho scritto sulla necessità di osservabilità e di trovare i problemi più velocemente alla velocità del fallimento ripetutamente.
Agisci rapidamente e con decisione
Quando si verificano incidenti importanti, dovrebbe essere una situazione con tutte le mani sul ponte. Non appena viene identificato un incidente critico (Sev. 1), un comandante dell'incidente dovrebbe essere assegnato all'incidente, deve essere immediatamente aperta una stanza di guerra collaborativa (virtuale o fisica) e devono essere invitati i proprietari del servizio appropriato. Se possibile, il problema deve essere inoltrato immediatamente al proprietario giusto che può risolvere il problema piuttosto che passare attraverso il processo del flusso di lavoro da L1 a L3, ecc. Nella stanza della guerra collaborativa, spesso è abbastanza comune puntare il dito e incolpare qualcun altro, ma ciò ritarderà ulteriormente il processo. Inoltre, se troppe persone vengono invitate in queste stanze di guerra collaborative, deve esserci un meccanismo per identificare il tempo medio di innocenza (MTTI) in modo che chiunque sia invitato possa continuare il proprio lavoro produttivo andandosene se non è direttamente correlati e non possono aiutare a risolvere il problema.
Gestisci la tua storia sui tuoi canali digitali.
Quando un Sev. 1 o si verifica una grave interruzione del servizio, i tuoi utenti devono saperlo, i tuoi proprietari di servizi devono saperlo e i tuoi dirigenti devono saperlo. In altre parole, tutti coloro che hanno la pelle nel gioco dovrebbero saperlo. Parte di esso sarebbe comunicazione esterna. Come minimo, deve esserci una pagina di stato che mostrerà lo stato e la qualità del servizio, in modo che tutti siano sempre a conoscenza dello stato del servizio. Inoltre, una spiegazione iniziale di cosa è andato storto, cosa stai facendo per risolverlo e un possibile ETA dovrebbe essere pubblicata come aggiornamento di stato o su post regolari su LinkedIn, Twitter, Facebook e altre piattaforme di social media in cui la tua azienda marchio è presente. L'oscuramento sui social media aggiungerà solo benzina sul fuoco. I tuoi utenti sanno che i tuoi servizi non sono disponibili. Se non ricevono aggiornamenti da te, speculatori o persino concorrenti, diffonderanno voci per rovinare il tuo marchio.
È qui che la maggior parte delle aziende digitali è debole in quanto non preparata, il che può creare o distruggere un'impresa PMI. La gestione in tempo reale delle crisi e della reputazione sono cruciali in quei momenti critici mentre ingegneri e team di supporto stanno cercando di risolvere il problema. È anche una buona idea utilizzare l'analisi del sentiment e gli strumenti di reputazione per capire chi sta dicendo cose estremamente negative e provare a portarli offline per affrontarli direttamente o rispondere a tono per evitare un'ulteriore escalation.
Esegui un'autopsia irreprensibile
Un modello comune che vedo in tutte le organizzazioni è che dopo che la crisi è stata risolta e l'incidente è stato risolto, tutti sembrano passare rapidamente al problema successivo. Potrebbe essere perché ci sono troppi problemi che i team di supporto, DevOps e Ops sono sopraffatti, o non pensano che sia necessario analizzare cosa o perché questo è successo. Una parte particolarmente importante della gestione delle crisi/incidenti è capire cosa è andato storto, perché è andato storto e, cosa più importante, come puoi risolverlo una volta per tutte, in modo che non accada mai più. Dopo aver trovato una soluzione, documentala correttamente. È inoltre necessario disporre di un repository per archiviare queste soluzioni in modo che, nello sfortunato incidente che si ripeta, sappiate come risolverlo in modo rapido e deciso.
Seguito
Inoltre, discuti della situazione con i tuoi migliori clienti che ne sono stati colpiti; spiega cosa hai fatto per risolvere il problema e come lo hai risolto in modo che non si ripeta. Ancora più importante, parla di come eri preparato all'incidente prima che si verificasse. Questo infonde grande fiducia nel tuo marchio. Non solo non perderai clienti, ma guadagnerai di più grazie a come l'hai gestito.
Inoltre, il consiglio generale delle società di gestione delle crisi sarebbe quello di annullare qualsiasi evento stravagante pianificato nell'immediato futuro. Se i tuoi servizi critici fossero inattivi per giorni, ma i tuoi dirigenti stessero tenendo una grande conferenza a Las Vegas, il mondo dei social media sarebbe lì per giorni. Monitora le piattaforme di social media (LinkedIn, Twitter, Facebook come minimo o qualsiasi altra piattaforma di social media su cui la tua azienda è presente, compresi i commenti negativi sui tuoi siti blog) per il tono; puoi persino utilizzare strumenti di analisi del sentiment basati sull'intelligenza artificiale per identificare i clienti ancora insoddisfatti per discutere le loro preoccupazioni e come affrontarli. Fino a quando queste preoccupazioni non verranno risolte, il tuo incidente non sarà completamente risolto.
Un'altra best practice consiste nell'evitare per un po' di tempo il contenuto di hype o il buzz di marketing dopo che si è verificato un incidente grave. Ho visto le aziende portare avanti il piano e ottenere un contraccolpo dai clienti che parlano tutti e niente funziona davvero.
Conclusione
Diciamolo chiaro: ogni impresa dovrà affrontare questo prima o poi. Nessuno è invincibile. La domanda è: sei pronto ad affrontarlo quando succede a te? Coloro che lo gestiscono correttamente possono conquistare la fiducia dei clienti, dimostrando di essere pronti a gestire gli incidenti futuri se dovessero ripetersi.
Ti guadagni la fiducia dei tuoi clienti facendo questo nel modo giusto modo, o lo perdi facendo pasticci e coprendolo? Questo ti definirà in futuro.
Alla ricerca Constellation, consigliamo alle aziende la selezione degli strumenti, le migliori pratiche, le tendenze e la corretta configurazione della gestione degli incidenti/crisi IT per l'era del cloud in modo che tu possa essere pronto quando succede a te. Consigliamo inoltre i clienti nel processo di negoziazione del contratto RFP, POC e fornitore, se necessario.
Argomenti correlati:
Enterprise Software CXO Government Security