
(Bild: ATO)
Eine Reihe von design-Entscheidungen, die von Hewlett-Packard Enterprise (HPE) verurteilt die 3PAR 20850 SAN-Lösung verkauft an das Australian Taxation Office (ATO) im Falle des Scheiterns über ein einzelnes Laufwerk oder Käfig, ein Bericht [PDF] in eine Reihe von storage-Ausfälle durch die ATO angegeben hat.
“Das SAN wurde weder konzipiert noch gebaut gerecht zu werden, für größer als einzigen Festplattenausfall oder single cage scheitern,” so der Bericht. “Dies stellte ein Risiko für unser Geschäft durch die große Anzahl von business-Systemen, abhängig von der SAN für den normalen Betrieb.”
Während die genaue Ursache für den Ausfall steht ein Bericht von HPE Ankunft in “Ende 2017”, so der Bericht platziert Schuld an der Verschlechterung einer Reihe von LWL-Kabel verwendet innerhalb des SAN.
Im Rahmen der Vereinbarung zwischen der ATO und HPE, der SAN ist im Besitz und betrieben von HPE, mit der ATO-haben keinen direkten Zugang zu. Wie bereits von dem Bericht, eine Analyse der Protokolle aus den sechs Monaten vor dem Vorfall zeigte eine Reihe von Warnungen, der angibt, Probleme mit dem SAN.
“Seit Mai 2016, mindestens 77 Ereignisse im Zusammenhang mit Komponenten, die beobachtet wurden, zum scheitern im Dezember 2016 Vorfall protokolliert wurden, werden in unser incident resolution-tool,” der ATO, sagte.
“Wir wurden nicht darauf hingewiesen, dass die Bedeutung der anhaltenden Warnungen, noch die größeren Systeme, die Auswirkungen, die sich aus dem Ausfall der 3PAR SAN.”
Unter der ATO ‘ s timeline von dem Vorfall in der Dezember-12-Ausfall begann um 12:40am wenn Festplatten begonnen, geben Sie einen konservierten Zustand, um zu verhindern, dass Daten gelöscht werden, und wurden unzugänglich zu ATO-Anwendungen.
Um 3:35 Uhr, 455 aus 3063-Laufwerke wurden in einem konservierten Zustand, und die firmware auf den Laufwerken war dadurch werden Sie nicht neu gestartet. Drei und eine halbe Stunden später, HPE entschied sich dann eskalieren Sie das Problem an einen “Priorität-1-Vorfall”.
Die Arbeit würde fortgesetzt, während der Weihnachten und das Neue Jahr Pause mit einer anschließenden Ausfall im Februar ein Ergebnis der Arbeit zur Behebung der Glasfaserkabel. In diesem Ausfalls, ein data-Karte wurde verdrängt in den Prozess und ließ die SAN-Verhalten in der gleichen Weise, wie in der Dezember-Vorfall. In beiden Fällen, das SAN wurde nicht automatisch wiederherstellen, selbst-und heruntergefahren werden, um Daten zu erhalten.
In der Februar-Vorfall, der ATO-Webseite blieb, wie es gewesen war, zog aus der SAN und gehostet in einer cloud-Umgebung.
Über Ostern, die Kabel wurden ersetzt, und die Warnungen beendet.
Die SAN-Lösung, bestehend aus einem primären 3PAR SAN in Sydney und ein anderes backup-3PAR in den westlichen Sydney, wurde für ein manuelles failover für Applikationen und hatte eine daisy-chain 5-Käfig-Konfiguration, die erlaubt, Fehler zu verteilt in Käfigen, während ein Misserfolg.
“Voll automatisierte fail‑over für die gesamte suite von Anwendungen und services im Fall eines kompletten SAN-Fehler in Sydney war nicht Bestandteil der storage-Lösung für die SAN. Die Kosten für die automatische fail‑over-Systeme, wie es Sie in einigen Bereichen der kritischen Infrastruktur oder in den großen finanziellen Institutionen, ist sehr hoch.”
Die meisten verurteilen aber war HPE Mangel an Vorbereitung für ein Ereignis der Art erlebt, die von der ATO im Dezember.
“Recovery-Verfahren für Anwendungen im Falle eines kompletten SAN-Ausfall hatte nicht definiert wurde oder getesteten HPE,” der ATO, sagte.
Als Folge der Vorfälle, die ATO aufgebaut hat seine storage-Lösung mit einer neuen 3PAR, und nachdem Daten aus den vorhandenen 3PAR SAN übertragen wird, wird es außer im Juli, die für forensische Analyse.
“Die neu integrierten Daten-storage-system, die bietet eine verbesserte Technologie besteht aus vier Teil-storage-Konfiguration und erhöht die Replikation der Daten, die eine geeignete back‑up‑und Failover-Fähigkeiten sowie überwachung aktiviert und die Ausfallsicherheit bietet,” so der Bericht.
Letzte Woche, EU-Kommissar der Besteuerung Chris Jordan sagte, das system wurde entwickelt für performance-anstelle der Stabilität, und eine Reihe von überwachungs-und Widerstandsfähigkeit Eigenschaften wurden nicht aktiviert.
“Diese Besondere SAN-Konfiguration nutzt ein feature, bekannt als wide‑striping, das entworfen, um deutlich verbessern die Leistung beim Lesen und schreiben von Blöcken von Daten zu und von mehreren Laufwerken gleichzeitig verhindern single‑Laufwerk performance-Engpässe”, den Bericht bestätigt.
“Wenn mehrere physische Laufwerke waren geprägt von einem Laufwerk firmware-Problem, das verhindert die Laufwerke von re‑Booten, das Ergebnis war, dass eine kleine Anzahl der Laufwerke vorübergehend und in einigen Fällen dauerhaft verhindert den Zugriff auf eine erhebliche Menge an Anwendungsdaten. Dies hatte auch den Effekt der Ausweitung der Dauer und der Komplexität der recovery-Aufwand.”
Jordan räumte ein, es dauerte länger als es sollte zur Wiederherstellung der SAN, weil die recovery-tools wurden gehalten auf der fehlerhaften SAN.
Nach den Vorfällen, die ATO hat sich bereits umgezogen, seine Daten-management -, überwachungs-und recovery-Systeme in einem separaten, unabhängigen storage-Bereich zu entfernen die Abhängigkeit von den HPE-SAN.
Die Letzte Australische news
Cyber-Sicherheit-Wachstum-Netzwerk will die Welt zu kaufen Australian
ATO SAN konnte nicht mit mehr als einem Laufwerk oder Käfig-Ausfall durch HPE-design
Optus Großhandel bringt Ethernet über NBN online
Australien Zeichen cybercrime-Abkommen mit Thailand
Kogan.com Start NBN services mit Vodafone