Dinge die nicht passieren dürfen

Es gibt Dinge, die dürfen einfach nicht passieren. Und sind trotzdem nicht 100,0%ig zu vermeiden. So gestern der Ausfall von gleich zwei unserer Upstreamprovider.

Theoretisch ist alles klar: Wir sind mehrach-redundant angebunden, d.h. nutzen sowohl zwei Gebäudeführungen bei der Netzwerkanbindung als auch mehrere Upstream-Provider. Fällt eine Leitung oder fällt ein anderer Provider aus, kann dies so gut abgefangen werden.

Praktisch sah es gestern leider anders aus:

1. Es kam zu einem Leitungsbruch unserer Upstream-Verbindung zu Lambdanet im Telehouse „Landsberger Str. 155“ in München

2. Die redundant geführte Leitung zum zweiten Upstream TeliaSonera in der Seidelstr. in München ist, nachdem für 2 Stunden dort bereits der Traffic nach Ausfall der ersten Anbindung gelaufen ist, ebenfalls (und ebenfalls außerhalb unseres Einflussbereichs) ausgefallen.

Beide Ursachen lagen nicht bei uns und die Chance, dass das so zusammentrifft, ist enorm gering. Dennoch – irgendwer gewinnt ja auch im Lotto – kam es genau dazu. Zum Glück konnte Noris Networks einspringen und kurzfristig einen Notfall-Upstream zur Verfügung stellen. Dennoch gab es in weiten Teilen des Internet gestern zwischen 21:30 Uhr und 22:50 Uhr (nachdem auch die zweite Leitung durch ein Problem beim Anbieter ausgefallen war) zu Einschränkungen bei unserer Erreichbarkeit.

Dafür bitten wir um Entschuldigung. Die Problematik lag jedoch weder in unserem Einflussbereich noch haben wir Dinge wie Überwachung der Leitungen etc. versäumt.

End of article

Sara Marburg

Über den Autor

Sara Marburg

Geschäftsführung (bis 11/13)

22 Kommentare

Bitte füllen Sie das Captcha aus : *

Reload Image

Die von Ihnen hier erhobenen Daten werden von der domainfactory GmbH zur Veröffentlichung Ihres Beitrags in diesem Blog verarbeitet. Weitere Informationen entnehmen Sie bitte folgendem Link: www.df.eu/datenschutz


  • Jörg
    Jörg - 10. Dezember 2009 um 08:20 Uhr

    Ein bisschen fahrlässig ist das aber schon. Wir prüfen regelmäßig ob unsere Prefixe auf unseren Nachbarn erreichbar sind und verteilen auch auf den Backup-Leitungen Traffic. Diese laufen somit nicht nur als „Cold Standby“ mit und monitoren kann man das Ganze auch.

    Was immer bei 2.) war – das war doch wohl schon länger „kaputt“ und nicht plötzlich?

  • Tobia Sara
    Tobia Sara - 10. Dezember 2009 um 08:21 Uhr

    Hallo Jörg,

    ich erfrage das gerne noch einmal bei der Technik. Meines Wissens ist das aber passiert und der Ausfall bzw. die Unterbrechnung ist bei beiden Firmen zeitnah aufgetreten. Es war also – nach meinen bisherigen Erkenntnissen, ich verifiziere das aber noch einmal – NICHT so, dass die zweite Anbindung seit u.U. länger Zeit nicht funktioniert hat.

  • Tobia Sara
    Tobia Sara - 10. Dezember 2009 um 08:32 Uhr

    Hallo Jörg,

    hier ein Update der Technik:

    Ihre Vermutung war – wie bereits von mir gesagt – nicht richtig. Der Traffic lief nach Auftreten der Störung bereits seit ca. zwei Stunden über die zweite, redundante Leitung, als auch bei dieser eine Störung aufgetreten ist.

  • Jörg
    Jörg - 10. Dezember 2009 um 08:33 Uhr

    Guten Morgen ;-),

    der Status Blog – Update von 22:16 Uhr läßt nämlich so etwas erahnen:
    „…jedoch können wir unseren Traffic nicht über diesen Carrier absetzen. Wir stehen mit dem NOC in Kontakt“

    BGP – Policy/Routing – Filter oder Misskonfiguration? Das wäre halt wirklich wie ein Lotto – Gewinn, wenn dort gleichzeitig plötzlich Probleme auftauchen.

    Grüße.

  • Jörg
    Jörg - 10. Dezember 2009 um 08:35 Uhr

    Ah ok, der Ausfall war hintereinander ;-). Ich dachte gleichzeitig.

  • Odde23
    Odde23 - 10. Dezember 2009 um 08:40 Uhr

    Das ganze war sehr ärgerlich, aber ich denke das muß man in die Schublade höhere Gewalt legen. Ein Ausfall lässt sich bei einem IT-System leider niemals zu 100% ganz ausschließen. Leider :-(. Wie Sie schon geschrieben haben Tobia – Sechser im Lotto mit Superzahl, nur der wäre besser gewsen :-).

    Evtl. macht es ja sinn, einen weiteren Backup Upstreamprovider ins Boot zu holen. Ich kann mich noch wage daran erinnern, dass es im Herbst 2004 zu ähnlichen Problemen kam. Damals – noch im alten RZ – wurden soweit ich mich erinnere weitere Leitungsredundanzen hergestellt um einen solchen Ausfall noch besser vermeiden zu können.

  • Tobia Sara
    Tobia Sara - 10. Dezember 2009 um 08:41 Uhr

    Jörg: Der Ausfall war halt erst ab Ausfall der 2. Leitung für unsere Kunden spürbar, die Gesamtdauer war aber länger (und hat rund 2 Stunden früher begonnen, als Anbindung 1 weg war und die Umschaltung auf die da noch funktionierende Anbindung 2 erfolgt ist).

  • Odde23
    Odde23 - 10. Dezember 2009 um 08:41 Uhr

    Dennoch, eins muß man Ihnen und Ihrem Team lassen, die Informationspolitik war wie gewohnt erstklassig. Nicht diese Salamitaktik wie sie in anderen Häusern der Branche gehandhabt wird :-).

  • Tobia Sara
    Tobia Sara - 10. Dezember 2009 um 08:43 Uhr

    Odde23: Wir stellen uns natürlich auch die Frage, was wir noch hätten anders/besser machen können und werden nach Verbesserungsmöglichkeiten suchen.

    Bereits heute haben wir jedoch zwei redundante Leitungen, zwei redundante Netzanbindungen und mehrere zusätzliche Peerings bzw. Fallback-Partner/Optionen.

  • Tobia Sara
    Tobia Sara - 10. Dezember 2009 um 08:46 Uhr

    Jörg: Danke für den Hinweis. Die Statusmeldung ist ja gestern Nacht „live“ entstanden und sollte primär Kunden schnellstmöglich informieren. Die missverständliche und für uns unbegründet nachteilige Formulierung muss aber nicht sein. Wir haben dies daher geändert; der korrigierte und eindeutigere Eintrag ist nun online.

  • Odde23
    Odde23 - 10. Dezember 2009 um 08:50 Uhr

    Das freut mich. Es sollte auch kein Vorwurf sein. Ich bin aus jahrelanger Erfahrung überzeugt, dass man bei dF immer versucht, sein bestes zu tun.

  • Peer Wandiger
    Peer Wandiger - 10. Dezember 2009 um 09:03 Uhr

    Natürlich ist es ärgerlich, wenn so etwas passiert.

    Jedoch war die Informationspolitik erstklassig. So muss das sein. Dann gibt es auch keinen Aufstand bei den Kunden.

    Hoffen wir aber mal, dass diese gute Infopolitik nicht so schnell wieder notwendig wird. 🙂

  • Horst
    Horst - 10. Dezember 2009 um 10:33 Uhr

    Blöd ist nur, wenn man unterwegs ist und die Telefonnummer nicht zur Hand hat. Wenn man dann nämlich die df.eu Seite aufrufen will, steht man auch im Regen.

    Wie kann man den Kunden, die das Rechenzentrum per Internet nciht erreichen können, eine Statusseite auf den Schirm bringen?

    Anspruchsvolle Frage.

  • naturkost.com
    naturkost.com - 10. Dezember 2009 um 10:47 Uhr

    Letztlich war der gestrige Ausfall von ca. 21:32 bis ca. 23:07 (als alles wieder stabil lief) natürlich ärgerlich – insbesondere für Shopbetreiber wie uns, die wir uns im Weihnachtsgeschäft befinden. Da laufen innerhalb weniger Stunden schnell einige tausend Euro Umsatzeinbuße auf. 🙁

    Andererseits spreche ich gerne einmal mehr ein großes Lob fürs dF-Team aus: Die Kommunikation mit den betroffenen Kunden via http://status.df.eu war vorbildlich, und letztlich wurde die Connectivity innerhalb kürzestmöglicher Zeit wieder hergestellt.

    Insofern ist die Downtime, sofern sich solche Ereignisse nicht häufen und sofern Ihr bei dF weiterhin eine so offene, ehrliche und schnelle Kundenkommunikation betreibt, selbst angesichts der Tatsache, dass sie (auch) uns bares Geld gekostet hat, verziehen.

  • Odde23
    Odde23 - 10. Dezember 2009 um 10:58 Uhr

    @Horst: Die Telefonnummer von dF steht auch auf der Statusseite von dF umter http://status.df.eu. Diese Seite wird in einem anderen RZ gehostet (Mitbewerber), somit war sie durchgängig erreichbar. Ich habe auch von dort die Telefonnummer herausgefischt und angerufen. Die arme Mitarbeiterin die ich um kurz vor 22:00 Uhr an der Strippe hatte hat mir im Nachhinein leid getan. Ich denke die mußte die Story mit dem Ausfall hunderte Male innerhalb einer Stunde herbeten.

  • Agnostiker
    Agnostiker - 10. Dezember 2009 um 11:13 Uhr

    Zum Glück konnte Noris Networks einspringen und kurzfristig einen Notfall-Upstream zur Verfügung stellen.
    Auf Chuck Nor(r)is Networks ist eben verlass! 😉 *scnr*

  • Adrian
    Adrian - 10. Dezember 2009 um 12:53 Uhr

    Mann was hab ich gestern gerätselt, bevor die Status-Meldung auf http://status.df.eu stand… Aus Norddeutschland war unsere Seite erreichbar, aus Westdeutschland nicht. In Berlin kam es auf den Provider an, in Leipzig ging hingegen gar nichts. Über alle deutschen VPNs, die ich probiert habe, war alles tot, wenn ich mich über USA oder UK eingewählt habe, gabs keine Probleme. Kurios.

    Gut, dass ihr das schnell aufgeklärt habt. Klar, so ein Ausfall ist ärgerlich, aber wenn Murphy mal ordentlich zuschlägt, bringt auch n-fache Redundanz nichts.

  • Tobia Sara
    Tobia Sara - 10. Dezember 2009 um 13:00 Uhr

    Das liegt daran, dass die Ausfälle nicht bei uns sondern an zwei anderen Standorten passiert sind und daher das direkte Peering zu anderen Anbietern via INXS und DECIX funktioniert hat.

  • Abo-bar
    Abo-bar - 10. Dezember 2009 um 16:17 Uhr

    „Blöd ist nur, wenn man unterwegs ist und die Telefonnummer nicht zur Hand hat…“

    Nö, Google vergisst ja nicht so schnell… 😉
    Einfach nach „domainfactory hotline“ googeln (wenn man die Adresse zur Status-Seite auch nicht zur Hand hat).
    Mir taten die armen Hotliner aber auch wirklich leid! 😀

  • Yannick, Anwaltssekretariat
    Yannick, Anwaltssekretariat - 11. Dezember 2009 um 11:13 Uhr

    Kann ja wirklich mal passieren. Bin nun seit mehreren Jahren auf einem der DF Server und kann mich an sehr, sehr wenige Ausfälle erinnern. Deshalb weiter sehr zufrieden mit DF bzw. meinem Subhoster, welche beide sehr schnell informiert haben was los ist…

  • naturkost.com
    naturkost.com - 11. Dezember 2009 um 11:35 Uhr

    Es kann in der Tat einfach mal passieren – bei jedem noch so guten Hoster.

    Ich messe in fast allen Wochen des Jahres nicht die zugesicherten 99,9, nicht 99,95 und auch nicht 99,99 – sondern genau 100% Uptime (sowohl http wie auch https) bei unserem dF-Server. Das muss auch mal gesagt werden…! 🙂