I en tid då DevOps har blivit en nödvändighet, och ingen har råd att få saker att gå ner, eller ens sakta ner, har praktiken av webbplatstillförlitlighetsteknik (SRE) blivit ett måste -ha. SRE, som kopplar samman verksamhet och utveckling, är efterfrågade.
< /p> Foto: Joe McKendrick
Det finns en stor skillnad mellan företag med högfungerande SRE-organisationer och de som ännu inte har fattat praktiken, visar en nyligen publicerad studie publicerad av Constellation Research. “Laggards är en stor incident bort från en katastrof”, säger Andy Thurai, analytiker på Constellation och författare till rapporten. “Att ha en mogen DevOps-organisation är helt enkelt inte tillräckligt för att vinna i en digital ekonomi. En mogen SRE-organisation som tar ett programvarutekniskt förhållningssätt till IT-drift är nödvändigt för att ge tillförlitlighet och motståndskraft mot kodhastigheten som kommer ut från mogna DevOps-organisationer.”
Kultur och tankesätt är allt. “Mentaliteten hos IT som kostnadsställe, eller tanken att dina system är oövervinnerliga, måste förändras”, säger Thurai. “Hela idén med SRE är att göra programvara tillförlitlig och att vara förberedd på oplanerade driftstopp. Det är en sak att introducera nya verktyg och smidiga och lean-tekniker, men om kulturen i organisationen är ineffektiv kommer ansträngningarna att vara meningslösa.”
För att utveckla en välfungerande SRE-praxis erbjuder Thurai följande rekommendationer:
Öppna organisationen: “Organisationer måste främja ett-lagssamarbete, eliminering av silos, en säker miljö där människor är fria att ta upp bekymmer och frågor, ett ständigt förbättringssätt, autonomi för team och ett empatiskt förhållningssätt till lagförhandlingar,” uppmanar Thurai.
Ta in artificiell intelligens och maskininlärning: “Att använda AI och ML minskar mycket brus och förbättrar brus-till-signal-förhållandet. Att undvika larmtrötthet hjälper till att minska slit och utbrändhet genom att göra det möjligt för SRE-proffs att jaga bara de stora incidenterna och spendera resten av sin tid produktivt med kodning och automatisering ansträngningar.”
Investera i rätt verktyg: AIOps, observerbarhet, Incidenthantering och IT-automatiseringsverktyg kan spela en avgörande roll för att öka en SRE-insats. “När det kommer till kris- och incidenthantering i molnet/digital-eran är hopp inte en strategi”, säger Thurai. Att investera i rätt verktyg “är nyckeln till att göra det möjligt för digitalt effektiva organisationer att överleva och frodas.”
Automatisera infrastrukturen. “Att automatisera infrastrukturen är ett måste för att minska eller eliminera slit med SRE. Förutom att skala upp/ned baserat på efterfrågan, Kubernetes orkestrering och klusterhantering, kan organisationer även använda automatisering under en incident för att automatisera enklare korrigeringar utan behovet av att involvera en ingenjör.”
Anställ och utbilda rätt personal: “Den initiala blandningen av personal bör vara inriktad på incidentidentifiering, eskalering och manuella korrigeringar,” Thurai råder. När saker och ting fortskrider, “bör mödan så småningom minska och SRE-teammedlemmarna bör kunna koncentrera sig på att automatisera eller göra annat produktivt arbete snarare än att eskalera och jaga incidentbiljetter manuellt.”
Enterprise Software | CXO | Tankeledarskap | Innovation | Teknik och arbete