Vijf manieren om de betrouwbaarheid van software te vergroten

0
203

Joe McKendrick

Door Joe McKendrick | 19 november 2021 | Onderwerp: IT-prioriteiten

In een tijdperk waarin DevOps een noodzaak is geworden en niemand het zich kan veroorloven om dingen te laten liggen of zelfs te vertragen, is de praktijk van site-betrouwbaarheidsengineering (SRE) een must geworden -hebben. Er is veel vraag naar SRE's, die operaties en ontwikkeling met elkaar verbinden.

rubriks-cube-aug-2020-photo-by-joe-mckendrick.jpg

< /p> Foto: Joe McKendrick

Er is een groot verschil tussen bedrijven met goed functionerende SRE-organisaties en bedrijven die de praktijk nog niet hebben begrepen, blijkt uit een recent onderzoek dat is gepubliceerd door Constellation Research. “Laggards zijn één groot incident verwijderd van een ramp”, zegt Andy Thurai, analist bij Constellation en auteur van het rapport. “Het hebben van een volwassen DevOps-organisatie is gewoon niet genoeg om te winnen in een digitale economie. Een volwassen SRE-organisatie die een software-engineeringbenadering hanteert voor IT-operaties is noodzakelijk om betrouwbaarheid en veerkracht te bieden aan de codesnelheid die voortkomt uit volwassen DevOps-organisaties.”

Cultuur en mentaliteit zijn alles. “De mentaliteit van IT als kostenpost, of de gedachte dat je systemen onoverwinnelijk zijn, moet veranderen”, zegt Thurai. “Het hele idee van SRE is om software betrouwbaar te maken en voorbereid te zijn op ongeplande downtime. Het is één ding om nieuwe tools en agile en lean technieken te introduceren, maar als de cultuur van de organisatie niet effectief is, zijn de inspanningen zinloos.”

Om een ​​goed functionerende SRE-praktijk te ontwikkelen, doet Thurai de volgende aanbevelingen:

Maak de organisatie open: “Organisaties moeten samenwerking binnen één team bevorderen, de eliminatie van silo's, een veilige omgeving waar mensen vrij zijn om zorgen en problemen aan de orde te stellen, een continue verbeteringsbenadering, autonomie voor teams en een empathische benadering van teamonderhandeling”, dringt Thurai aan.

Breng kunstmatige intelligentie en machine learning in: “Het gebruik van AI en ML vermindert veel ruis en verbetert de ruis-signaalverhouding. Het vermijden van alerte vermoeidheid helpt zwoegen en burn-out te verminderen door SRE-professionals in staat te stellen alleen de grote incidenten te achtervolgen en de rest van hun tijd productief te besteden aan codering en automatisering inspanningen.”

Investeer in de juiste tools: AIOps, observeerbaarheid, incidentbeheer en IT-automatiseringstools kunnen een cruciale rol spelen bij het stimuleren van een SRE-inspanning. “Als het gaat om crisis- en incidentbeheer in het cloud/digitale tijdperk, is hoop geen strategie”, zegt Thurai. Investeren in de juiste tools “zijn essentieel om digitaal efficiënte organisaties in staat te stellen te overleven en te gedijen.”

Automatiseer de infrastructuur. “Het automatiseren van de infrastructuur is een must om zwoegen met SRE's te verminderen of te elimineren. Naast het op- en afschalen op basis van de vraag, Kubernetes-orkestratie en clusterbeheer, kunnen organisaties ook automatisering tijdens een incident gebruiken om eenvoudigere oplossingen te automatiseren zonder de noodzaak om een ​​monteur in te schakelen.”

Huur en train het juiste personeel: “De aanvankelijke mix van personeel moet gericht zijn op identificatie van incidenten, escalatie en handmatige reparaties,” Thurai adviseert. Naarmate de zaken vorderen, “moet het zwoegen uiteindelijk afnemen en moeten de SRE-teamleden zich kunnen concentreren op het automatiseren of ander productief werk doen in plaats van handmatig te escaleren en incidenttickets na te jagen.”

Enterprise Software | CXO | Gedachte Leiderschap | Innovatie | Techniek en werk