Fem måder at øge softwarepålideligheden på

0
99

Joe McKendrick

Af Joe McKendrick | 19. november 2021 | Emne: IT-prioriteter

I en æra, hvor DevOps er blevet en nødvendighed, og ingen har råd til at få tingene til at gå ned eller endda bremse, er praksis med site reliability engineering (SRE) blevet et must -har. SRE'er, der forbinder drift og udvikling, er meget efterspurgt.

rubriks-cube-aug-2020-photo-by-joe-mckendrick.jpg

< /p> Foto: Joe McKendrick

Der er en stor forskel mellem virksomheder med højtfungerende SRE-organisationer og dem, der endnu ikke har forstået praksis, viser en nylig undersøgelse offentliggjort af Constellation Research. “Forsinkede er en stor hændelse væk fra en katastrofe,” siger Andy Thurai, analytiker hos Constellation og forfatter til rapporten. “At have en moden DevOps-organisation er bare ikke nok til at vinde i en digital økonomi. En moden SRE-organisation, der tager en softwareteknisk tilgang til it-drift er nødvendig for at give pålidelighed og modstandsdygtighed til den kodehastighed, der kommer ud af modne DevOps-organisationer.”

Kultur og tankegang er alt. “Mentaliteten af ​​IT som et omkostningscenter, eller tanken om, at dine systemer er uovervindelige, skal ændres,” siger Thurai. “Hele ideen med SRE er at gøre software pålidelig og at være forberedt på uplanlagt nedetid. Én ting er at introducere nye værktøjer og agile og lean-teknikker, men hvis kulturen i organisationen er ineffektiv, vil indsatsen være forgæves.”

For at udvikle en velfungerende SRE-praksis tilbyder Thurai følgende anbefalinger:

Åbn organisationen: “Organisationer skal fremme et-team-samarbejde, eliminering af siloer, et sikkert miljø, hvor folk er frie til at rejse bekymringer og problemer, en løbende forbedringstilgang, autonomi for teams og en empatisk tilgang til teamforhandling,” opfordrer Thurai.

Bring kunstig intelligens og maskinlæring: “Brug af AI og ML reducerer meget støj og forbedrer støj-til-signal-forholdet. At undgå alarmtræthed hjælper med at reducere slid og udbrændthed ved at gøre det muligt for SRE-professionelle kun at jagte de store hændelser og bruge resten af ​​deres tid produktivt på kodning og automatisering indsats.”

Invester i de rigtige værktøjer: AIOps, observerbarhed, Incident management og IT-automatiseringsværktøjer kan spille en afgørende rolle i at booste en SRE-indsats. “Når det kommer til krise- og hændelseshåndtering i skyen/digital-æraen, er håb ikke en strategi,” siger Thurai. Investering i de rigtige værktøjer “er nøglen til at gøre det muligt for digitalt effektive organisationer at overleve og trives.”

Automatiser infrastrukturen. “Automatisering af infrastrukturen er et must for at reducere eller eliminere slid med SRE'er. Ud over at skalere op/ned baseret på efterspørgsel, Kubernetes-orkestrering og klyngestyring kan organisationer også bruge automatisering under en hændelse til at automatisere enklere rettelser uden behovet for at involvere en ingeniør.”

Lej og uddanne det rigtige personale: “Den indledende blanding af personale bør være rettet mod hændelsesidentifikation, eskalering og manuelle rettelser,” Thurai rådgiver. Efterhånden som tingene skrider frem, “bør slidet i sidste ende falde, og SRE-teamets medlemmer bør være i stand til at koncentrere sig om at automatisere eller udføre andet produktivt arbejde i stedet for at eskalere og jage hændelsesbilletter manuelt.”

Enterprise Software | CXO | Tankeledelse | Innovation | Teknik og arbejde