ATO SAN kon niet omgaan met meer dan één schijf of kooi mislukking dankzij HPE ontwerp

0
133
ato-san-screenie.png
(Afbeelding: ATO)

Een reeks van beslissingen genomen door Hewlett Packard Enterprise (HPE) gedoemd de 3PAR 20850 SAN oplossing verkocht aan de Australian Taxation Office (ATO) in geval van het niet verder dan een enkele schijf of kooi, een rapport [PDF] in een reeks van opslag uitval door het ATO heeft vermeld.

“De SAN is niet ontwikkeld of gebouwd om tegemoet te komen voor meer dan één schijf defect of één kooi mislukking,” aldus het rapport. “Dit opgesteld en een risico voor onze business te wijten aan het grote aantal zaken systemen die afhankelijk zijn van de SAN voor de normale werking.”

Hoewel de exacte oorzaak van de storing is in afwachting van een rapport van HPE door te komen in de “eind 2017”, het rapport legt de schuld van de afbraak van een aantal van de glasvezel kabels gebruikt binnen de SAN.

Onder de regeling tussen de ATO en HPE, de SAN is eigendom van en wordt geëxploiteerd door HPE, met de ATO hebben geen directe toegang tot het. Zoals is opgemerkt in het rapport, een analyse van de logboeken van de zes maanden voor het incident liet een aantal van de signalen die wijzen op problemen met de SAN.

“Sinds Mei 2016, minstens 77 gebeurtenissen met betrekking tot onderdelen die werden waargenomen die niet in de December 2016 incident werden vastgelegd in onze oplossen van incidenten tool,” de ATO zei.

“We waren niet volledig bewust zijn van het belang van de voortdurende waarschuwingen, noch de bredere systemen voor de gevolgen die zouden voortvloeien uit het onvermogen van de 3PAR SAN.”

Onder de ATO ‘ s timeline van het incident, de 12 December storing begon om 12:40am als schijven begonnen met het invoeren van een geconserveerd om te voorkomen dat gegevens worden verwijderd, en waren in feite ontoegankelijk te ATO toepassingen.

Door 3:35am, 455 van 3063 stations werden in een geconserveerd, en de firmware in de drives is te voorkomen dat ze wordt opnieuw opgestart. Drie en een half uur later, HPE en besloot te escaleren dat het probleem op een “Prioriteit 1 incident”.

Het werk zou blijven gedurende de Kerst en het Nieuwe Jaar te breken, met een latere uitval in februari een resultaat van het werk op te lossen de glasvezel bekabeling. In die uitvalt, een data kaart werd verdreven in het proces en de oorzaak van de SAN te gedragen op dezelfde manier als de December incident. In beide gevallen, de SAN was niet in staat om automatisch herstellen zich en sluit om gegevens te bewaren.

In de februari-incident, de ATO website bleef, zoals het zich verplaatst van de SAN en gehost in een cloud-omgeving.

Over Pasen, de kabels zijn vervangen, en de waarschuwingen afgesloten.

De SAN-oplossing, die bestond uit een primaire 3PAR SAN in Sydney en een back-up 3PAR in west-Sydney, was ontworpen voor een handmatige failover voor toepassingen, en had een daisy-chain 5 kooi configuratie die toegestaan fouten te verspreiden over de kooien tijdens een mislukking.

“Een volledige automatische fail‑over voor het hele suite van toepassingen en-diensten in het geval van een complete SAN storing in Sydney was geen onderdeel van de oplossing voor opslag, voor het SAN. De kosten van de automatische fail‑over systemen, zoals ze bestaan in sommige gebieden van kritieke infrastructuur of in de grote financiële instellingen, is zeer hoog.”

Meest vernietigende hoewel, was HPE het gebrek aan voorbereiding voor een evenement van de soort ervaren door de ATO in December.

“Recovery procedures voor aanvragen in het geval van een complete SAN uitval niet was gedefinieerd of getest door HPE,” de ATO zei.

Als gevolg van de incidenten, de ATO herbouwd zijn storage-oplossing met een nieuwe 3PAR, en zodra de gegevens van de bestaande 3PAR SAN is overgedragen, zal worden ontmanteld in juli voor de forensische analyse.

“De nieuw gebouwde data-opslag-systeem met verbeterde technologie bestaat uit een vierdelige opslag van configuratie-en hogere data-replicatie, die zorgt voor de juiste back‑up en fail‑over mogelijkheden evenals ingeschakeld monitoring en veerkracht heeft,” aldus het rapport.

Vorige week, Commissaris van de Belastingen Chris Jordan zei dat het systeem is ontworpen voor prestaties in plaats van de stabiliteit, en een aantal van de monitoring en de veerkracht van de functies zijn niet ingeschakeld.

“Deze bijzondere SAN-configuratie maakt gebruik van een functie bekend als breed‑striping die is ontworpen om een aanzienlijke verbetering van de prestaties door het lezen en schrijven blokken van gegevens naar en van meerdere stations op hetzelfde moment, het voorkomen van enkelvoudige‑drive performance bottlenecks,” het rapport bevestigt.

“Als meerdere fysieke schijven werden beïnvloed door een drive firmware probleem voorkomen die schijven van opnieuw opstarten, het resultaat was dat een klein aantal schijven tijdelijk en in sommige gevallen permanent verhinderd dat de toegang tot een aanzienlijk bedrag van de toepassing van de gegevens. Dit had ook het effect van de verlenging van de duur en de complexiteit van het herstel inspanning.”

Jordan gaf ook toe het duurde langer dan het zou moeten hebben om te herstellen van de SAN, omdat de recovery tools werden gehouden over de falende SAN.

Na de incidenten, de ATO is al verplaatst de gegevens van het beheer, de controle en het herstel systemen in een aparte, onafhankelijke storage area te verwijderen van de afhankelijkheid van de HPE SAN.

Laatste Australische nieuws

ATO SAN kon niet omgaan met meer dan één schijf of kooi mislukking dankzij HPE ontwerp

Optus Groothandel brengt Ethernet over NBN online

Australië tekenen cybercrime overeenkomst met Thailand

Kogan.com lancering van NBN diensten met Vodafone

Vocus ontvangt AU$3,50 per aandeel overname voorstel