Stromausfall RZ

Incident Report for Geib IT Status

Resolved

Alle Dienste laufen seit Freitag wieder stabil. Wir sind immer noch dabei, Hardware-Komponenten zu tauschen, die im Rahmen des Stromausfalls beschädigt wurden. Dies erfolgt fortlaufend und ausfallfrei, da es sich um redundante Komponenten bzw. einzelne Clusterknoten handelt.

Posted Oct 24, 2023 - 10:37 CEST

Update

Bisher arbeiten alle Server stabil. Wir schauen aktuell die einzelnen Maschinen nochmal durch und prüfen erneut, dass alle Dienste erwartungsgemäß laufen.

Posted Oct 20, 2023 - 10:33 CEST

Monitoring

Mittlerweile sind alle Server und Systeme wieder erreichbar und arbeiten augenscheinlich normal.
Wir behalten die Systeme genau im Blick und kontrollieren morgen alles auch nochmals einzeln händisch.

Posted Oct 19, 2023 - 18:44 CEST

Update

Die ersten beiden Cluster sind wieder online und die ersten Server laufen aktuell wieder an.
Aufwändigere Setups mit Mischungen aus physischer Hardware und virtuellen Maschinen brauchen leider noch etwas länger, da wir hier die passenden Abhängigkeiten berücksichtigen müssen.

Posted Oct 19, 2023 - 12:16 CEST

Update

Die Netzwerkkonnektivität ist endlich wiederhergestellt. Wir beginnen nun damit, im ersten Schritt die VMware-Cluster wieder in Betrieb zu nehmen.

Posted Oct 19, 2023 - 11:27 CEST

Update

Die neuen Transceiver sind gerade bei uns eingetroffen. Wir programmieren sie jetzt und fahren dann ins Rechenzentrum.

Posted Oct 19, 2023 - 10:26 CEST

Update

Wir haben mittlerweile einen definitiven Liefertermin für die Transceiver für morgen um zehn Uhr erhalten.
Da ein so langer Ausfall für uns nicht in Frage kommt probieren wir parallel händeringend bei befreundeten Rechenzentrumsbetreibern in der Region ein passendes Ersatzteil ausfindig zu machen. Bisher hatten wir hiermit allerdings noch kein Glück.

Posted Oct 18, 2023 - 15:48 CEST

Update

Das Problem ist die Kompatibilität der Transceiver mit dem Austauschgerät. Wir warten aktuell auf Ersatz-Transceiver und probieren solange einen Workaround über einen anderen Router zu implementieren.

Posted Oct 18, 2023 - 10:45 CEST

Update

Das Ersatzgerät nimmt die bestehende Config nicht an. Wir bauen nun eine neue Config, mit dem Ziel wieder eine Verbindung aufbauen zu können.

Posted Oct 18, 2023 - 07:35 CEST

Identified

Unsere Edge Router fahren nach dem Ausfall nicht hoch. Mglw. wurden die Netzteile beschädigt. Wir übertragen die Konfiguration auf ein Ersatzgerät und versuchen es damit.

Posted Oct 18, 2023 - 05:54 CEST

Update

Wir starten nun einen ersten Wiederanlaufversuch mit einem Teil der zentralen Netzwerkinfrastruktur.

Posted Oct 18, 2023 - 04:50 CEST

Update

Das Problem wurde identifiziert und es wird aktuell probiert eine Überbrückung zu realisieren. Warum beide Phasen gestört sind ist noch nicht abschließend geklärt.

Posted Oct 18, 2023 - 02:14 CEST

Update

Eine Seite unseres Kaltgangs ist stromlos. Wir fahren die verbliebenen Server gerade strukturiert herunter und warten auf den Elektriker.

Posted Oct 17, 2023 - 23:00 CEST

Investigating

Aktuell sind große Teile unserer Infrastruktur stromlos. Wir sind auf dem Weg ins Rechenzentrum, um das Ganze genauer zu analysieren und geben ein Update, sobald wir weitere Informationen haben.

Posted Oct 17, 2023 - 22:20 CEST

This incident affected: Rechenzentrum St. Ingbert (IGB01) (Uplink (Internet), Backbone (Netzwerk), VPN Kunden, VPN Management).