Dinge die nicht passieren dürfen

von Sara veröffentlicht am 10. Dezember 2009, 07:25 Uhr

Es gibt Dinge, die dürfen einfach nicht passieren. Und sind trotzdem nicht 100,0%ig zu vermeiden. So gestern der Ausfall von gleich zwei unserer Upstreamprovider.

Theoretisch ist alles klar: Wir sind mehrach-redundant angebunden, d.h. nutzen sowohl zwei Gebäudeführungen bei der Netzwerkanbindung als auch mehrere Upstream-Provider. Fällt eine Leitung oder fällt ein anderer Provider aus, kann dies so gut abgefangen werden.

Praktisch sah es gestern leider anders aus:

1. Es kam zu einem Leitungsbruch unserer Upstream-Verbindung zu Lambdanet im Telehouse “Landsberger Str. 155″ in München

2. Die redundant geführte Leitung zum zweiten Upstream TeliaSonera in der Seidelstr. in München ist, nachdem für 2 Stunden dort bereits der Traffic nach Ausfall der ersten Anbindung gelaufen ist, ebenfalls (und ebenfalls außerhalb unseres Einflussbereichs) ausgefallen.

Beide Ursachen lagen nicht bei uns und die Chance, dass das so zusammentrifft, ist enorm gering. Dennoch – irgendwer gewinnt ja auch im Lotto – kam es genau dazu. Zum Glück konnte Noris Networks einspringen und kurzfristig einen Notfall-Upstream zur Verfügung stellen. Dennoch gab es in weiten Teilen des Internet gestern zwischen 21:30 Uhr und 22:50 Uhr (nachdem auch die zweite Leitung durch ein Problem beim Anbieter ausgefallen war) zu Einschränkungen bei unserer Erreichbarkeit.

Dafür bitten wir um Entschuldigung. Die Problematik lag jedoch weder in unserem Einflussbereich noch haben wir Dinge wie Überwachung der Leitungen etc. versäumt.

Trackbacklink · RSS-Feed der Artikelkommentare: RSS 2.0
Veröffentlicht in Allgemein, Na klar · Schlagworte: ,

Kommentare & Trackbacks

Jörg 10. Dezember `09 08:20 Uhr

Ein bisschen fahrlässig ist das aber schon. Wir prüfen regelmäßig ob unsere Prefixe auf unseren Nachbarn erreichbar sind und verteilen auch auf den Backup-Leitungen Traffic. Diese laufen somit nicht nur als “Cold Standby” mit und monitoren kann man das Ganze auch.

Was immer bei 2.) war – das war doch wohl schon länger “kaputt” und nicht plötzlich?

Tobia Sara 10. Dezember `09 08:21 Uhr

Hallo Jörg,

ich erfrage das gerne noch einmal bei der Technik. Meines Wissens ist das aber passiert und der Ausfall bzw. die Unterbrechnung ist bei beiden Firmen zeitnah aufgetreten. Es war also – nach meinen bisherigen Erkenntnissen, ich verifiziere das aber noch einmal – NICHT so, dass die zweite Anbindung seit u.U. länger Zeit nicht funktioniert hat.

Tobia Sara 10. Dezember `09 08:32 Uhr

Hallo Jörg,

hier ein Update der Technik:

Ihre Vermutung war – wie bereits von mir gesagt – nicht richtig. Der Traffic lief nach Auftreten der Störung bereits seit ca. zwei Stunden über die zweite, redundante Leitung, als auch bei dieser eine Störung aufgetreten ist.

Jörg 10. Dezember `09 08:33 Uhr

Guten Morgen ;-) ,

der Status Blog – Update von 22:16 Uhr läßt nämlich so etwas erahnen:
“…jedoch können wir unseren Traffic nicht über diesen Carrier absetzen. Wir stehen mit dem NOC in Kontakt”

BGP – Policy/Routing – Filter oder Misskonfiguration? Das wäre halt wirklich wie ein Lotto – Gewinn, wenn dort gleichzeitig plötzlich Probleme auftauchen.

Grüße.

Jörg 10. Dezember `09 08:35 Uhr

Ah ok, der Ausfall war hintereinander ;-) . Ich dachte gleichzeitig.

Odde23 10. Dezember `09 08:40 Uhr

Das ganze war sehr ärgerlich, aber ich denke das muß man in die Schublade höhere Gewalt legen. Ein Ausfall lässt sich bei einem IT-System leider niemals zu 100% ganz ausschließen. Leider :-( . Wie Sie schon geschrieben haben Tobia – Sechser im Lotto mit Superzahl, nur der wäre besser gewsen :-) .

Evtl. macht es ja sinn, einen weiteren Backup Upstreamprovider ins Boot zu holen. Ich kann mich noch wage daran erinnern, dass es im Herbst 2004 zu ähnlichen Problemen kam. Damals – noch im alten RZ – wurden soweit ich mich erinnere weitere Leitungsredundanzen hergestellt um einen solchen Ausfall noch besser vermeiden zu können.

Tobia Sara 10. Dezember `09 08:41 Uhr

Jörg: Der Ausfall war halt erst ab Ausfall der 2. Leitung für unsere Kunden spürbar, die Gesamtdauer war aber länger (und hat rund 2 Stunden früher begonnen, als Anbindung 1 weg war und die Umschaltung auf die da noch funktionierende Anbindung 2 erfolgt ist).

Odde23 10. Dezember `09 08:41 Uhr

Dennoch, eins muß man Ihnen und Ihrem Team lassen, die Informationspolitik war wie gewohnt erstklassig. Nicht diese Salamitaktik wie sie in anderen Häusern der Branche gehandhabt wird :-) .

Tobia Sara 10. Dezember `09 08:43 Uhr

Odde23: Wir stellen uns natürlich auch die Frage, was wir noch hätten anders/besser machen können und werden nach Verbesserungsmöglichkeiten suchen.

Bereits heute haben wir jedoch zwei redundante Leitungen, zwei redundante Netzanbindungen und mehrere zusätzliche Peerings bzw. Fallback-Partner/Optionen.

Tobia Sara 10. Dezember `09 08:46 Uhr

Jörg: Danke für den Hinweis. Die Statusmeldung ist ja gestern Nacht “live” entstanden und sollte primär Kunden schnellstmöglich informieren. Die missverständliche und für uns unbegründet nachteilige Formulierung muss aber nicht sein. Wir haben dies daher geändert; der korrigierte und eindeutigere Eintrag ist nun online.

Odde23 10. Dezember `09 08:50 Uhr

Das freut mich. Es sollte auch kein Vorwurf sein. Ich bin aus jahrelanger Erfahrung überzeugt, dass man bei dF immer versucht, sein bestes zu tun.

Peer Wandiger 10. Dezember `09 09:03 Uhr

Natürlich ist es ärgerlich, wenn so etwas passiert.

Jedoch war die Informationspolitik erstklassig. So muss das sein. Dann gibt es auch keinen Aufstand bei den Kunden.

Hoffen wir aber mal, dass diese gute Infopolitik nicht so schnell wieder notwendig wird. :-)

Horst 10. Dezember `09 10:33 Uhr

Blöd ist nur, wenn man unterwegs ist und die Telefonnummer nicht zur Hand hat. Wenn man dann nämlich die df.eu Seite aufrufen will, steht man auch im Regen.

Wie kann man den Kunden, die das Rechenzentrum per Internet nciht erreichen können, eine Statusseite auf den Schirm bringen?

Anspruchsvolle Frage.

naturkost.com 10. Dezember `09 10:47 Uhr

Letztlich war der gestrige Ausfall von ca. 21:32 bis ca. 23:07 (als alles wieder stabil lief) natürlich ärgerlich – insbesondere für Shopbetreiber wie uns, die wir uns im Weihnachtsgeschäft befinden. Da laufen innerhalb weniger Stunden schnell einige tausend Euro Umsatzeinbuße auf. :-(

Andererseits spreche ich gerne einmal mehr ein großes Lob fürs dF-Team aus: Die Kommunikation mit den betroffenen Kunden via http://status.df.eu war vorbildlich, und letztlich wurde die Connectivity innerhalb kürzestmöglicher Zeit wieder hergestellt.

Insofern ist die Downtime, sofern sich solche Ereignisse nicht häufen und sofern Ihr bei dF weiterhin eine so offene, ehrliche und schnelle Kundenkommunikation betreibt, selbst angesichts der Tatsache, dass sie (auch) uns bares Geld gekostet hat, verziehen.

Odde23 10. Dezember `09 10:58 Uhr

@Horst: Die Telefonnummer von dF steht auch auf der Statusseite von dF umter http://status.df.eu. Diese Seite wird in einem anderen RZ gehostet (Mitbewerber), somit war sie durchgängig erreichbar. Ich habe auch von dort die Telefonnummer herausgefischt und angerufen. Die arme Mitarbeiterin die ich um kurz vor 22:00 Uhr an der Strippe hatte hat mir im Nachhinein leid getan. Ich denke die mußte die Story mit dem Ausfall hunderte Male innerhalb einer Stunde herbeten.

Agnostiker 10. Dezember `09 11:13 Uhr

Zum Glück konnte Noris Networks einspringen und kurzfristig einen Notfall-Upstream zur Verfügung stellen.
Auf Chuck Nor(r)is Networks ist eben verlass! ;-) *scnr*

Adrian 10. Dezember `09 12:53 Uhr

Mann was hab ich gestern gerätselt, bevor die Status-Meldung auf http://status.df.eu stand… Aus Norddeutschland war unsere Seite erreichbar, aus Westdeutschland nicht. In Berlin kam es auf den Provider an, in Leipzig ging hingegen gar nichts. Über alle deutschen VPNs, die ich probiert habe, war alles tot, wenn ich mich über USA oder UK eingewählt habe, gabs keine Probleme. Kurios.

Gut, dass ihr das schnell aufgeklärt habt. Klar, so ein Ausfall ist ärgerlich, aber wenn Murphy mal ordentlich zuschlägt, bringt auch n-fache Redundanz nichts.

Tobia Sara 10. Dezember `09 13:00 Uhr

Das liegt daran, dass die Ausfälle nicht bei uns sondern an zwei anderen Standorten passiert sind und daher das direkte Peering zu anderen Anbietern via INXS und DECIX funktioniert hat.

Abo-bar 10. Dezember `09 16:17 Uhr

“Blöd ist nur, wenn man unterwegs ist und die Telefonnummer nicht zur Hand hat…”

Nö, Google vergisst ja nicht so schnell… ;-)
Einfach nach “domainfactory hotline” googeln (wenn man die Adresse zur Status-Seite auch nicht zur Hand hat).
Mir taten die armen Hotliner aber auch wirklich leid! :-D

Yannick, Anwaltssekretariat 11. Dezember `09 11:13 Uhr

Kann ja wirklich mal passieren. Bin nun seit mehreren Jahren auf einem der DF Server und kann mich an sehr, sehr wenige Ausfälle erinnern. Deshalb weiter sehr zufrieden mit DF bzw. meinem Subhoster, welche beide sehr schnell informiert haben was los ist…

naturkost.com 11. Dezember `09 11:35 Uhr

Es kann in der Tat einfach mal passieren – bei jedem noch so guten Hoster.

Ich messe in fast allen Wochen des Jahres nicht die zugesicherten 99,9, nicht 99,95 und auch nicht 99,99 – sondern genau 100% Uptime (sowohl http wie auch https) bei unserem dF-Server. Das muss auch mal gesagt werden…! :-)