von Sara Veröffentlicht in Allgemein, Interna

Dienstagabend, 20 Uhr. Unsere Kolleginnen und Kollegen bei der Technik und im Kundenservice stellen sich auf einen ruhigen Abend ein. Das Anrufvolumen bewegt sich im überschaubaren Rahmen und das Monitoring meldet keine besonderen Auffälligkeiten. Alles im grünen Bereich also.

Zwischen ca. 20:30 und 21 Uhr. Erste Anrufer berichten darüber, dass ihre bei uns gehostete Webseiten nicht mehr erreichbar sind. Die ersten Überprüfungen können dies nicht bestätigen: Alle genannten Domainnamen funktionieren aus unserer Sicht und sowohl bei den Servern als auch im Netzwerk sind keine Störungen verzeichnet. Dennoch wird die Technik informiert, damit diese den Meldungen nachgehen kann.

Gegen 21 Uhr: Die Lage spitzt sich zu. Die Anzahl der Anrufer, die einen Ausfall melden, steigt drastisch an. Es kommt zu spürbaren Wartezeiten. Auch in unserem Kundenforum, auf unserer Facebook-Seite und bei Twitter häufen sich die Mitteilungen über ein Problem. Unsere Mitarbeiter nehmen sowohl im technischen Bereich als auch im Kundenservice eine vorsorgliche Notfall-Eskalation vor und informieren u.a. Vorgesetzte, damit diese unterstützend eingreifen und Verstärkung für z.B. die Telefonhotline organisieren können. Ob Feierabend oder nicht ist jetzt keine Frage: Es gibt ein Problem und das muss gelöst werden. Auch die Geschäftsleitung ist aktiv, um die weitere Entwicklung aktiv begleiten zu können.

Kurz nach 21 Uhr: Das anfangs unklare Problem zeichnet sich inzwischen deutlicher ab. Offensichtlich gibt es Routingschwierigkeiten, die einen Teil des Datenverkehrs aus dem Netz der DTAG betreffen. Wir schreiben einen ersten Statusseiteneintrag und geben die Mitteilung auch über unsere Social-Media Kanäle weiter. Alle Beteiligten arbeiten mit Hochtouren an einer Lösung und der Beantwortung aller Kundenanfragen. Das Ziel: Den Datenverkehr so umleiten, dass er wieder normal “fließen” kann.

21:11 Uhr: Die Beeinträchtigung konnte durch eine vorgenommene Routingänderung im Netzwerk umgangen und somit die vollständige Erreichbarkeit aller Dienste für alle Nutzer wiederhergestellt werden. Der betroffene Datenverkehr wird über andere Netzverbindungen von uns geleitet und die “Unfallstelle” somit umgangen. Parallel laufen weitere Analysen, zudem stehen wir mit dem betroffenen Uplinkprovider in Kontakt. Die Stautsseite wird erneut aktualisiert und auch auf Twitter, Facebook und im Forum sind wir weiterhin parallel dazu aktiv. Die Stimmung ist weiterhin angespannt.

21:30 Uhr: Der betroffene Uplinkprovider in München hat uns das in seinem Einflussbereich liegende Problem bestätigt. Die getroffene Einschätzung war also richtig und die Änderung unseres Routings die passende Entscheidung. Wir leiten den Datenverkehr daher auch weiterhin über andere Uplinks und können den um 21:11 Uhr wieder hergestellten reibungslosen Betrieb stabil aufrecht erhalten. Weitere Stellungnahmen auf der Statusseite, im Forum, bei Facebook und auf Twitter runden die Kundenkommunikation bis etwa 21:45 Uhr ab. Die Lage hat sich inzwischen, auch an der Hotline, wieder normalisiert. Wir heben daher die Alarmierung der zusätzlichen Personen auf; die Technik behält jedoch ein besonderes Augenmerk darauf, ob es erneut zu einem Problem kommt.

Mittwoch, 6 Uhr: Das alternative Routing hat gehalten und weitere für Kunden spürbare Einschränkungen sind nicht aufgetreten. Die Nacht ist im normalen Rahmen verlaufen. Wir sind erleichtert.

9 Uhr: Die in der Nacht noch eingetroffene Stellungnahme des betroffenen Uplink-Providers und das abschließende Ergebnis der internen Analyse liegen vor und werden besprochen. Aus den vorliegenden Informationen ergibt sich nun ein vollständiges Bild zu der Frage, weshalb das Problem aufgetreten und für uns anfangs überhaupt nicht eindeutig nachvollziehbar gewesen ist. Konkret kam es bei einem von uns genutzten Uplink, über den wir den DTAG-Datenverkehr abgewickelt haben, zu einem teilweisen Ausfall im Backbone. Dieser hat nicht zu einem vollständigen Ausfall des Standorts geführt, sondern nur bestimmte Absender- und Empfänger-IP-Adressen betroffen. Datenpakete, die über den “kaputten Teil” des Datenkanals gesendet worden sind, haben ihr Ziel erreicht. Die anderen gingen “verloren”.

Aus diesem Grund konnten wir intern die Situation nicht so einfach reproduzieren sondern statt dessen sogar die für die betroffenen Kunden ausgefallenen Dienste ganz normal erreichen. Auch die automatische Routingänderung mittels BGP-Protokoll  hat daher nicht funktioniert, da der Backbone des betroffenen Uplinks eben nur zum Teil gestört gewesen ist und alle BGP-Verbindungen intakt geblieben sind. Unser Netzwerk hat daher weiterhin Daten mit dem Uplink ausgetauscht, ohne erkennen zu können, dass er für einen Teil der Internetnutzer nicht mehr funktioniert.

Inzwischen wurde der Defekt dort natürlich bereits behoben und die Verbindung wieder aktiviert. Insgesamt lässt sich festhalten, dass in der Spitze etwa 15% des während des Ausfalls regulär anfallenden Datenverkehrs von dem Problem betroffen worden ist. Dies ist – obwohl sich der Ausfall vollständig außerhalb unseres Einflussbereichs abgespielt hat – ohne jede Frage unerfreulich für die betroffenen Kunden und wir hoffen, den Ärger durch die schnellstmögliche Reaktion und zeitnahe Fehlerbehebung zumindest ein wenig reduziert zu haben.

Hier noch einige Screenshots zur ergänzenden Dokumenation:

von dF Veröffentlicht in Allgemein

Um es vorweg zu nehmen: Nachdem der Testlauf mit rund 700.000 Domains am gestrigen World IPv6 Day bei uns problemlos verlaufen ist, werden wir Kundenwebseiten künftig dauerhaft sowohl per IPv4 als auch per IPv6 erreichbar machen. Aber nun der Reihe nach:

An dem gestrigen World IPv6 Day hatten wir uns bekanntlich mit allen Shared-Hosting-Angeboten und den ManagedServern beteiligt. Über 700.000 Domains waren somit von gestern, Mittwoch, 8 Uhr, bis heute, Donnerstag, 8 Uhr, über IPv4 und über IPv6 parallel erreichbar. Bei Bedarf konnten unsere Kunden die Teilnahme an dem Testlauf bereits vorab über eine Opt-Out-Möglichkeit ausschließen.

Das Ergebnis hat uns gefreut: Zwar hatten wir von vornherein nicht mit großen Problemen gerechnet, aber dass es an unserer Hotline so ruhig sein würde, hätten wir auch nicht gedacht. Exakt drei Anfragen beschäftigten sich mit dem Thema – eine verschwindende Zahl bei rund 1000 Supportanfragen pro Tag. Nur eine Webseite musste wegen Problemen mit einem externen Monitoring-Service auf reinen IPv4-Betrieb umgestellt werden. Einmal lag das Problem beim Kunden, der auch Seiten wie Google und Facebook nicht erreichen konnte. Im dritten Fall vermuten unsere Techniker eine andere Ursache als den Parallelbetrieb von IPv6 und IPv4.

Angesichts dieser positiven Bilanz haben wir uns dazu entschlossen, die Hosting-Angebote künftig dauerhaft per IPv6 erreichbar zu machen. Starten wird der Dauerbetrieb am 4. Juli und wird auch die am World IPv6 Day noch nicht umgestellten Forwarding-Domains einbeziehen. Davor werden alle Kunden nochmals ausführlich informiert. Die Opt-Out-Möglichkeit bleibt dabei natürlich bestehen.

Bis zum Jahresende planen wir, auch unsere virtuellen “Jiffybox” Cloudserver auf einen Parallelbetrieb mit IPv6 um zu stellen. Auch mittels SSL-Zertifikat geschützte Domains sollen bis dahin mit dem “Internetprotokoll der Zukunft” erreichbar.

Unser Fazit: Der World IPv6 Day hat gezeigt, dass die Umstellung schon heute problemlos möglich ist. Nun liegt es in der Verantwortung aller maßgeblichen Akteure, die Umstellung auch umzusetzen. Wir wollen hier als Vorreiter dieser Entwicklung bewusst ein Zeichen setzen.

von Jochen Veröffentlicht in Allgemein, Fachchinesisch

Der World-IPv6-Tag ist da. Wie angekündigt haben wir heute um 08:00 für knapp 700.000 Domains auf mehreren tausend unserer Server IPv6 aktiviert. Damit sind alle df Webhosting-Angebote im Dual-Stack Modus aktiv und aus dem IPv6-Internet erreichbar. Ausgenommen sind nur Kunden die im Vorfeld unsere Opt-Out Funktion genutzt haben.

Unsere Erfahrungen mit dem Einsatz von IPv6 sowie Statistiken über die Nutzung bei uns veröffentlichen wir hier stündlich.

Update 09.06.11 10:15
Wir haben die Statistiken unten aktualisert, es sind jetzt alle Daten bis zum 08.06. 23:59 vorhanden. Über unser weiteres Vorgehen informieren wir heute gesondert.

Update 16:55
Keine Änderung der Situation und keine Überraschungen. Die Statistiken sind nun auf dem Stand von 16:00. Wir werden den IPv6-Tag zunächst komplett abwarten bevor wir morgen über unser weiteres Vorgehen entscheiden. Die stündlichen Updates hier im Blog beenden wir erst einmal – es gibt nichts Neues zu berichten.

Update 15:35
Die Situation ist unverändert ruhig, das IPv6-Volumen bleibt stabil bestehen. Die Statistiken sind nun auf dem Stand von 15:00.

Update 14:40

Statistiken unten auf Stand 14:00 aktualisiert. In der letzten Stunde hatten wir zwei Support-Fälle die von Problemen berichten.

Update 13:40

  • Aus unserer Sicht verläuft der IPv6-Tag wesentlich glatter und weniger spektakulär als erwartet.
  • Stand jetzt hatten wir genau einen Support-Fall wo jemand eine Seite aufgrund des Dual-Betriebs IPv4 und IPv6 nicht erreichen konnte. (Gleichzeitig waren bei diesem User aufgrund des IPv6-Tags auch Google und Facebook nicht aufrufbar).
  • Gemessen an unserem sonstigen Volumen von rund 1.000 Fällen pro Tag und immerhin rund 100.000 Webhits pro Stunde über IPv6 sind die Auswirkungen und das zusätzliche Supportvolumen also sehr sehr gering.
  • Wir fragen uns ob wir den Dual-StackBetrieb nicht einfach aktiviert lassen sollen und gleichzeitig unsere Opt-Out-Funktion weiterhin bestehen lassen. Je mehr große Teilnehmer im Internet sich für diesen Schritt entscheiden würden, umso leichter würde das allen fallen da die geringe Zahl von Nutzern mit aktiviertem aber “kaputtem” IPv6 dann – genau wie heute – sehr viele Seiten nicht erreichen könnten und die Erreichbarkeitsprobleme dann auf Clientseite korrigiert werden. Wir beobachten die Situation weiter. Sobald wir eine Entscheidung fällen informieren wir selbstverständlich zeitnah unsere Kunden.
  • Die Statistiken unten haben jetzt den Stand von 13:00.

Update 12:30
Die Statistiken für 11:00 und 12:00 sind jetzt online.

Update 12:00
Das Ganze sieht wesentlich weniger problematisch aus als erwartet. Wir liegen weiter bei keinem einzigen an uns berichteten Problem und befinden uns damit im “Best-Case” Szenario. Der DE-CIX IPv6-Traffic pendelt sich langsam ein: Das IPv6-Volumen hat sich heute gegenüber gestern grob verdoppelt.

Aktualisierte Statistiken für unser IPv6-Volumen liefern wir in Kürze nach.

Update 10:50

Nach unserem planmäßigen Start heute um 08:00 haben wir bisher keine Probleme verzeichnet. Das IPv6-Trafficvolumen im europäischen Teil des Internets ist laut DECIX-Traffic-Statistik höher als sonst.
Statistiken (Stand: 16:00)


Anzahl Web-Hits via IPv6 in der letzten Stunde (klick zum Vergrößern)

 


Anteil Web-Hits via IPv6 am Gesamtvolumen in der letzten Stunde (klick zum Vergrößern)

 


Support-Anfragen zu IPv6 (klick zum Vergrößern)

von Sara Veröffentlicht in Interna

Anruf in unserem “Network Operation Center” (“NOC”):

DF: “domainfactory GmbH, xxxx”

Anrufer: “Guten Tag. Ich habe in einem Fuchsbau zwei Ringe von Singvögeln gefunden. Wo sind die registriert?”

DF: “Tut mir leid, wir sind ein Internet Service Provider. Wir machen Webhosting und haben mit Füchsen nichts zu tun.”

Anrufer: “Ja nee, ich meine wegen der Singvögel – die Füchse haben die wahrscheinlich gefressen. Wo kann man den herausfinden auf wen die registriert sind? Geht das bei einer Vogelwarte?”

DF: “Da habe ich leider keine Ahnung.”

Anrufer: “Hmmmm okay. . Da habe ich mal eine andere Frage: Wo kann ich denn bei Ihnen Ringe für Greifvögel bestellen?”

DF: “Mit Vögeln haben wir leider nichts zu tun, wir machen Internet”.

Anrufer: “Oh … ich sehe es hier … tut mir leid. Einen schönen Tag!”

DF: “Gerne, einen schönen Tag”.

:-D

von Sara Veröffentlicht in Interna

Aus einer internen E-Mail:

Hallo Kollegen,

im Rechenzentrum sind eine ganze Menge alter/nicht mehr benötigter Netzwerkkabel angefallen. Bevor wir diese verkaufen/entsorgen möchten wir euch die Möglichkeit geben für den Eigenbedarf (bitte also nur das mitnehmen was ihr wirklich Privat brauchen könnt damit alle Kollegen eine Chance haben) Kabel zu bekommen.  Ab sofort steht dafür am Kicker im Büro 1. OG links ein großer blauer Sack mit den entsprechenden Kabeln, aus dem sich jeder rausnehmen darf was er möchte. Für alle Kabel gilt das wir nicht für die Funktion garantieren können, es sind mit Sicherheit auch ein paar defekte Kabel dabei (mit Knick, durchgeschnitten etc.). Der Großteil (vor allem die Originalverpackten) sollte aber tadellos und wie neu funktionieren.

Für unsere Blogleser haben wir uns kurzerhand fünf dieser Original-dF-Netzwerkkabel gesichert. Wer Interesse hat, bitte hier heute melden. Die Kabel werden dann unter allen Interessenten verlost. Natürlich werden die Netzwerkkabel vorher ordentlich von allen noch darin enthaltenen Restdaten gereinigt und somit vollständig sauber übergeben ;-) .

Schlagworte:
von Sara Veröffentlicht in Allgemein, Na klar

Es gibt Dinge, die dürfen einfach nicht passieren. Und sind trotzdem nicht 100,0%ig zu vermeiden. So gestern der Ausfall von gleich zwei unserer Upstreamprovider.

Theoretisch ist alles klar: Wir sind mehrach-redundant angebunden, d.h. nutzen sowohl zwei Gebäudeführungen bei der Netzwerkanbindung als auch mehrere Upstream-Provider. Fällt eine Leitung oder fällt ein anderer Provider aus, kann dies so gut abgefangen werden.

Praktisch sah es gestern leider anders aus:

1. Es kam zu einem Leitungsbruch unserer Upstream-Verbindung zu Lambdanet im Telehouse “Landsberger Str. 155″ in München

2. Die redundant geführte Leitung zum zweiten Upstream TeliaSonera in der Seidelstr. in München ist, nachdem für 2 Stunden dort bereits der Traffic nach Ausfall der ersten Anbindung gelaufen ist, ebenfalls (und ebenfalls außerhalb unseres Einflussbereichs) ausgefallen.

Beide Ursachen lagen nicht bei uns und die Chance, dass das so zusammentrifft, ist enorm gering. Dennoch – irgendwer gewinnt ja auch im Lotto – kam es genau dazu. Zum Glück konnte Noris Networks einspringen und kurzfristig einen Notfall-Upstream zur Verfügung stellen. Dennoch gab es in weiten Teilen des Internet gestern zwischen 21:30 Uhr und 22:50 Uhr (nachdem auch die zweite Leitung durch ein Problem beim Anbieter ausgefallen war) zu Einschränkungen bei unserer Erreichbarkeit.

Dafür bitten wir um Entschuldigung. Die Problematik lag jedoch weder in unserem Einflussbereich noch haben wir Dinge wie Überwachung der Leitungen etc. versäumt.

Schlagworte:,
Kommentare deaktiviert

Baustellenzeit

von Sara Veröffentlicht in Allgemein

Sommerzeit ist Baustellenzeit. Zumindest auf der Straße. Warum das nicht auch aufs Internet übertragen, scheint sich einer unserer Leitungsanbieter gedacht zu haben. Und daher für August und September inzwichen gleich fünf Betriebsunterbrechungen angesetzt. Dank redundanter Auslegung und flexiblem Routing hat dies keine negativen Auswirkungen für uns und unsere Kunden. Ungewöhnlich und zumindest unschön ist die hohe Anzahl erforderlicher Wartungsarbeiten dennoch. Hoffen wir, dass es ein “Einzelfall” ( sic!) bleibt.