von Sara Veröffentlicht in Allgemein, Interna

Dienstagabend, 20 Uhr. Unsere Kolleginnen und Kollegen bei der Technik und im Kundenservice stellen sich auf einen ruhigen Abend ein. Das Anrufvolumen bewegt sich im überschaubaren Rahmen und das Monitoring meldet keine besonderen Auffälligkeiten. Alles im grünen Bereich also.

Zwischen ca. 20:30 und 21 Uhr. Erste Anrufer berichten darüber, dass ihre bei uns gehostete Webseiten nicht mehr erreichbar sind. Die ersten Überprüfungen können dies nicht bestätigen: Alle genannten Domainnamen funktionieren aus unserer Sicht und sowohl bei den Servern als auch im Netzwerk sind keine Störungen verzeichnet. Dennoch wird die Technik informiert, damit diese den Meldungen nachgehen kann.

Gegen 21 Uhr: Die Lage spitzt sich zu. Die Anzahl der Anrufer, die einen Ausfall melden, steigt drastisch an. Es kommt zu spürbaren Wartezeiten. Auch in unserem Kundenforum, auf unserer Facebook-Seite und bei Twitter häufen sich die Mitteilungen über ein Problem. Unsere Mitarbeiter nehmen sowohl im technischen Bereich als auch im Kundenservice eine vorsorgliche Notfall-Eskalation vor und informieren u.a. Vorgesetzte, damit diese unterstützend eingreifen und Verstärkung für z.B. die Telefonhotline organisieren können. Ob Feierabend oder nicht ist jetzt keine Frage: Es gibt ein Problem und das muss gelöst werden. Auch die Geschäftsleitung ist aktiv, um die weitere Entwicklung aktiv begleiten zu können.

Kurz nach 21 Uhr: Das anfangs unklare Problem zeichnet sich inzwischen deutlicher ab. Offensichtlich gibt es Routingschwierigkeiten, die einen Teil des Datenverkehrs aus dem Netz der DTAG betreffen. Wir schreiben einen ersten Statusseiteneintrag und geben die Mitteilung auch über unsere Social-Media Kanäle weiter. Alle Beteiligten arbeiten mit Hochtouren an einer Lösung und der Beantwortung aller Kundenanfragen. Das Ziel: Den Datenverkehr so umleiten, dass er wieder normal “fließen” kann.

21:11 Uhr: Die Beeinträchtigung konnte durch eine vorgenommene Routingänderung im Netzwerk umgangen und somit die vollständige Erreichbarkeit aller Dienste für alle Nutzer wiederhergestellt werden. Der betroffene Datenverkehr wird über andere Netzverbindungen von uns geleitet und die “Unfallstelle” somit umgangen. Parallel laufen weitere Analysen, zudem stehen wir mit dem betroffenen Uplinkprovider in Kontakt. Die Stautsseite wird erneut aktualisiert und auch auf Twitter, Facebook und im Forum sind wir weiterhin parallel dazu aktiv. Die Stimmung ist weiterhin angespannt.

21:30 Uhr: Der betroffene Uplinkprovider in München hat uns das in seinem Einflussbereich liegende Problem bestätigt. Die getroffene Einschätzung war also richtig und die Änderung unseres Routings die passende Entscheidung. Wir leiten den Datenverkehr daher auch weiterhin über andere Uplinks und können den um 21:11 Uhr wieder hergestellten reibungslosen Betrieb stabil aufrecht erhalten. Weitere Stellungnahmen auf der Statusseite, im Forum, bei Facebook und auf Twitter runden die Kundenkommunikation bis etwa 21:45 Uhr ab. Die Lage hat sich inzwischen, auch an der Hotline, wieder normalisiert. Wir heben daher die Alarmierung der zusätzlichen Personen auf; die Technik behält jedoch ein besonderes Augenmerk darauf, ob es erneut zu einem Problem kommt.

Mittwoch, 6 Uhr: Das alternative Routing hat gehalten und weitere für Kunden spürbare Einschränkungen sind nicht aufgetreten. Die Nacht ist im normalen Rahmen verlaufen. Wir sind erleichtert.

9 Uhr: Die in der Nacht noch eingetroffene Stellungnahme des betroffenen Uplink-Providers und das abschließende Ergebnis der internen Analyse liegen vor und werden besprochen. Aus den vorliegenden Informationen ergibt sich nun ein vollständiges Bild zu der Frage, weshalb das Problem aufgetreten und für uns anfangs überhaupt nicht eindeutig nachvollziehbar gewesen ist. Konkret kam es bei einem von uns genutzten Uplink, über den wir den DTAG-Datenverkehr abgewickelt haben, zu einem teilweisen Ausfall im Backbone. Dieser hat nicht zu einem vollständigen Ausfall des Standorts geführt, sondern nur bestimmte Absender- und Empfänger-IP-Adressen betroffen. Datenpakete, die über den “kaputten Teil” des Datenkanals gesendet worden sind, haben ihr Ziel erreicht. Die anderen gingen “verloren”.

Aus diesem Grund konnten wir intern die Situation nicht so einfach reproduzieren sondern statt dessen sogar die für die betroffenen Kunden ausgefallenen Dienste ganz normal erreichen. Auch die automatische Routingänderung mittels BGP-Protokoll  hat daher nicht funktioniert, da der Backbone des betroffenen Uplinks eben nur zum Teil gestört gewesen ist und alle BGP-Verbindungen intakt geblieben sind. Unser Netzwerk hat daher weiterhin Daten mit dem Uplink ausgetauscht, ohne erkennen zu können, dass er für einen Teil der Internetnutzer nicht mehr funktioniert.

Inzwischen wurde der Defekt dort natürlich bereits behoben und die Verbindung wieder aktiviert. Insgesamt lässt sich festhalten, dass in der Spitze etwa 15% des während des Ausfalls regulär anfallenden Datenverkehrs von dem Problem betroffen worden ist. Dies ist – obwohl sich der Ausfall vollständig außerhalb unseres Einflussbereichs abgespielt hat – ohne jede Frage unerfreulich für die betroffenen Kunden und wir hoffen, den Ärger durch die schnellstmögliche Reaktion und zeitnahe Fehlerbehebung zumindest ein wenig reduziert zu haben.

Hier noch einige Screenshots zur ergänzenden Dokumenation:

von Sara Veröffentlicht in Allgemein

“Gibt es einen Ausfall oder stehen irgendwelche für mich spürbare Arbeiten an Systemen an?” – Fragen dieser Art beantwortet unsere Statusseite unter http://status.df.eu (bzw. für unsere Lowcost-Marke domain*go unter http://www.domaingo-status.de). Auf dieser versorgen wir unsere Kundinnen und Kunden bereits seit über neun Jahren mit aktuellen Informationen bei angekündigten Wartungsarbeiten oder kurzfristigen Betriebsunterbrechnungen. Auch ein RSS-Feed ist natürlich verfügbar. Die Seite wird vorsorglich extern gehostet, damit sie auch z.B. bei einem vollständigen Netzwerkausfall (unwahrscheinlich, aber trotz mehrfacher Redundanz natürlich theoretisch möglich) erreichbar bleibt. Ein Bookmarking oder die Aufnahme in den RSS-Reader lohnt sich also. Immerhin kann man so im Verdachtsfall schnell feststellen, ob ein allgemeines Problem bei uns vorliegt und sich damit unnötige, zeitraubende Supportanfragen ersparen.

Bei einigen tausend Servern  ist es nicht verwunderlich, dass an vielen Tagen ein oder mehrere Einträge über in der Regel zum Glück eher kleinere Probleme informieren. Aufgrund der hohen Gerätezahlen ist das einfach unvermeidbar – zumindest, wenn man eine solche Statusseite ernsthaft als Bestandteil eines guten Kundenservices betreiben und nicht als Pseudo-Aushängeschild (“schaut mal, wir haben nie Ausfälle”) “missbrauchen” möchte.

Aber wie läuft das denn so ab, mit der Statusseite?

Nun, nehmen wir die aktuellen Meldungen als Grundlage:

Aktuelle Statusseite Stand 9.9.2009 8:22 Uhr

Alle Einträge werden über ein webbasiertes Verwaltungstool administriert. Dort sieht das dann z.B. so aus:

Administration

Direkt auf der Übersichtsseite sind Dinge wie der letzte Zeitpunkt der Bearbeitung jedes Eintrages  zu sehen und auch, ob dieser für unsere Marke domainFACTORY und/oder domain*go aktiv ist. Zudem lässt sich direkt die Reihenfolge der Einträge ändern und natürlich auch eine Bearbeitung vornehmen.

Für jede Stautsmeldung lassen sich verschiedene Einstellungen festlegen:

Statuseintrag bearbeiten/erstellen

  • Vorauswahl aus einigen Standard-Templates
  • Art des Eintrages: “Dauerhaft”, z.B. bei einer angekündigten Wartungsarbeit im Voraus oder “Notfall” bei akuten Ausfällen
  • Titel inkl. Servername und -nummer
  • die Statusmitteilung an sich
  • ein Update-Text für Aktualisierungen
  • die Angabe, welche(r) Server betroffen ist/sind bzw. – bei betroffenen Kunden erscheint der Eintrag auch automatisch im Kundenmenü. Darüber hinaus kann auch ein allgemeiner Eintragstyp gewählt werden, bei dem die Mitteilung optional in jedem Kundenmenü angezeigt wird
  • der Brand (domainFACTORY oder domain*go)
  • Start-, Stopp- Updatezeit sowie eine Angabe zur voraussichtlichen Behebung

Über das Tool lassen sich Statusmeldungen sehr einfach durch die zuständigen Mitarbeiterinnen und Mitarbeiter einpflegen. Wichtig ist dabei, dass die Erstellung und Aktualisierung von Statusmeldungen – egal ob an normalen Computern oder über mobile Endgeräte  – möglichst schnell und unkompliziert funktioniert. Immerhin sollen einerseits alle betroffenen Kunden über eine Störung so schnell wie möglich informiert werden, ohne dass dies andererseits die Problembehebung spürbar verzögert.

Bei einem (zum Glück sehr seltenen) größeren Problem ist daher auch ein gesonderter Mitarbeiter dafür zuständig, regelmäßig den aktuellen Status bei den mit dem Problem befassten Kollegen zu erfragen und in ausreichend kurzen Intervallen (z.B. 15 Minuten) zu veröffentlichen. Ergänzt wird dies dann je nach Bedarf  durch eine aktive Betreuung in unserem Forum. Dazu eröffnen wir einen gesonderten Thread, in dem ebenfalls laufend ein aktueller Status veröffentlicht wird und Rückfragen möglich sind.

Denn unserer Erfahrung nach ist jede Betriebsunterbrechnung natürlich ärgerlich – noch schlimmer ist es aus Kundensicht  jedoch, im Dunkeln gelassen und nicht mit aktuellen Informationen versorgt zu werden.