Dienstagabend, 20 Uhr. Unsere Kolleginnen und Kollegen bei der Technik und im Kundenservice stellen sich auf einen ruhigen Abend ein. Das Anrufvolumen bewegt sich im überschaubaren Rahmen und das Monitoring meldet keine besonderen Auffälligkeiten. Alles im grünen Bereich also.
Zwischen ca. 20:30 und 21 Uhr. Erste Anrufer berichten darüber, dass ihre bei uns gehostete Webseiten nicht mehr erreichbar sind. Die ersten Überprüfungen können dies nicht bestätigen: Alle genannten Domainnamen funktionieren aus unserer Sicht und sowohl bei den Servern als auch im Netzwerk sind keine Störungen verzeichnet. Dennoch wird die Technik informiert, damit diese den Meldungen nachgehen kann.
Gegen 21 Uhr: Die Lage spitzt sich zu. Die Anzahl der Anrufer, die einen Ausfall melden, steigt drastisch an. Es kommt zu spürbaren Wartezeiten. Auch in unserem Kundenforum, auf unserer Facebook-Seite und bei Twitter häufen sich die Mitteilungen über ein Problem. Unsere Mitarbeiter nehmen sowohl im technischen Bereich als auch im Kundenservice eine vorsorgliche Notfall-Eskalation vor und informieren u.a. Vorgesetzte, damit diese unterstützend eingreifen und Verstärkung für z.B. die Telefonhotline organisieren können. Ob Feierabend oder nicht ist jetzt keine Frage: Es gibt ein Problem und das muss gelöst werden. Auch die Geschäftsleitung ist aktiv, um die weitere Entwicklung aktiv begleiten zu können.
Kurz nach 21 Uhr: Das anfangs unklare Problem zeichnet sich inzwischen deutlicher ab. Offensichtlich gibt es Routingschwierigkeiten, die einen Teil des Datenverkehrs aus dem Netz der DTAG betreffen. Wir schreiben einen ersten Statusseiteneintrag und geben die Mitteilung auch über unsere Social-Media Kanäle weiter. Alle Beteiligten arbeiten mit Hochtouren an einer Lösung und der Beantwortung aller Kundenanfragen. Das Ziel: Den Datenverkehr so umleiten, dass er wieder normal “fließen” kann.
21:11 Uhr: Die Beeinträchtigung konnte durch eine vorgenommene Routingänderung im Netzwerk umgangen und somit die vollständige Erreichbarkeit aller Dienste für alle Nutzer wiederhergestellt werden. Der betroffene Datenverkehr wird über andere Netzverbindungen von uns geleitet und die “Unfallstelle” somit umgangen. Parallel laufen weitere Analysen, zudem stehen wir mit dem betroffenen Uplinkprovider in Kontakt. Die Stautsseite wird erneut aktualisiert und auch auf Twitter, Facebook und im Forum sind wir weiterhin parallel dazu aktiv. Die Stimmung ist weiterhin angespannt.
21:30 Uhr: Der betroffene Uplinkprovider in München hat uns das in seinem Einflussbereich liegende Problem bestätigt. Die getroffene Einschätzung war also richtig und die Änderung unseres Routings die passende Entscheidung. Wir leiten den Datenverkehr daher auch weiterhin über andere Uplinks und können den um 21:11 Uhr wieder hergestellten reibungslosen Betrieb stabil aufrecht erhalten. Weitere Stellungnahmen auf der Statusseite, im Forum, bei Facebook und auf Twitter runden die Kundenkommunikation bis etwa 21:45 Uhr ab. Die Lage hat sich inzwischen, auch an der Hotline, wieder normalisiert. Wir heben daher die Alarmierung der zusätzlichen Personen auf; die Technik behält jedoch ein besonderes Augenmerk darauf, ob es erneut zu einem Problem kommt.
Mittwoch, 6 Uhr: Das alternative Routing hat gehalten und weitere für Kunden spürbare Einschränkungen sind nicht aufgetreten. Die Nacht ist im normalen Rahmen verlaufen. Wir sind erleichtert.
9 Uhr: Die in der Nacht noch eingetroffene Stellungnahme des betroffenen Uplink-Providers und das abschließende Ergebnis der internen Analyse liegen vor und werden besprochen. Aus den vorliegenden Informationen ergibt sich nun ein vollständiges Bild zu der Frage, weshalb das Problem aufgetreten und für uns anfangs überhaupt nicht eindeutig nachvollziehbar gewesen ist. Konkret kam es bei einem von uns genutzten Uplink, über den wir den DTAG-Datenverkehr abgewickelt haben, zu einem teilweisen Ausfall im Backbone. Dieser hat nicht zu einem vollständigen Ausfall des Standorts geführt, sondern nur bestimmte Absender- und Empfänger-IP-Adressen betroffen. Datenpakete, die über den “kaputten Teil” des Datenkanals gesendet worden sind, haben ihr Ziel erreicht. Die anderen gingen “verloren”.
Aus diesem Grund konnten wir intern die Situation nicht so einfach reproduzieren sondern statt dessen sogar die für die betroffenen Kunden ausgefallenen Dienste ganz normal erreichen. Auch die automatische Routingänderung mittels BGP-Protokoll hat daher nicht funktioniert, da der Backbone des betroffenen Uplinks eben nur zum Teil gestört gewesen ist und alle BGP-Verbindungen intakt geblieben sind. Unser Netzwerk hat daher weiterhin Daten mit dem Uplink ausgetauscht, ohne erkennen zu können, dass er für einen Teil der Internetnutzer nicht mehr funktioniert.
Inzwischen wurde der Defekt dort natürlich bereits behoben und die Verbindung wieder aktiviert. Insgesamt lässt sich festhalten, dass in der Spitze etwa 15% des während des Ausfalls regulär anfallenden Datenverkehrs von dem Problem betroffen worden ist. Dies ist – obwohl sich der Ausfall vollständig außerhalb unseres Einflussbereichs abgespielt hat – ohne jede Frage unerfreulich für die betroffenen Kunden und wir hoffen, den Ärger durch die schnellstmögliche Reaktion und zeitnahe Fehlerbehebung zumindest ein wenig reduziert zu haben.
Hier noch einige Screenshots zur ergänzenden Dokumenation:













