Login English

22. Oktober 2010

20 Kommentare

En Detail: Die Störungen der letzten Tage

Gelinde gesagt sind wir mit der momentanen Verfügbarkeit von mite unzufrieden. Offen gesagt brennt hier gerade die Hütte. Eine einstündige Nicht-Erreichbarkeit am Nachmittag des 15. Oktober, eine fünfzehnminütige in der Nacht des 19. und nun noch eine zweistündige in der vergangenen Nacht mussten wir verzeichnen – das ist definitiv nicht die Qualität, für die mite steht. Wir sind euch nicht nur eine weitere Entschuldigung schuldig, sondern eine Erklärung.

Was genau ist passiert?

Alle drei Ausfälle wurden durch Fehler der Hardware im Rechenzentrum verursacht, die Anwendung selbst lief tadellos. Störung 1 war unabhängig von Störung 2 und 3; Unglück und Pech kamen hier leider zusammen.

Am 15. Oktober fiel – trotz selbstverständlich redundant ausgelegter Stromversorgungskreise – die Elektrizität in unserem primären Rechenzentrum aus. Im Rahmen von Wartungsarbeiten war dort ein Umschalten zwischen den separaten Stromkreisen eingeplant, das aufgrund einer Kombination aus fehlerhafter Dokumentation einer Anlage und einer nicht perfekten Notfallplanung schiefging. Die Stromversorgung konnte binnen einer halben Stunde wiederhergestellt werden, danach brauchten die Systeme noch einige Minuten, um Daten zu überprüfen und korrekt wiederhochzufahren.

Die nächtlichen Ausfälle am 19. und am 21. Oktober gingen beide auf das Konto von Netzwerkswitches. Am 19. fiel einer dieser Switches aus und wurde binnen Minuten ersetzt, dieser Defekt konnte sehr fix behoben werden. In der gestrigen Nacht traten auf beiden Netzwerkswitches eines IBM Bladecenters gleichzeitig Störungen auf. Ein Tausch der Switches fruchtete nicht. Der Fehler konnte erst durch einen leider zeitintensiveren Umbau auf ein Ersatzblade behoben werden.

Welche Maßnahmen greifen, um solch Ausfälle künftig zu verhindern?

Zwei Anmerkungen vorneweg: Keine Hardware wird immer zu 100% funktionieren, nicht in unserem Rechenzentrum und nicht in anderen. Das ist leider schlicht Realität, wir werden dies nicht grundsätzlich ändern können. Höchste und übergeordnete Priorität hat für uns die Sicherstellung der Datensicherheit. Eure Daten sind heilig, diese dürfen zu keinem Zeitpunkt in Gefahr sein. Zur Gewährleistung dieser Richtlinie nehmen wir im Zweifelsfall auch einmal eine um einige Minuten längere Nicht-Erreichbarkeit in Kauf.

Wo wir in Zusammenarbeit mit Hoster und Rechenzentrum jedoch fraglos ansetzen können und ansetzen, ist erstens die Klärung von Störungen bis ins letzte Detail, um die jeweilige Wurzel eines Problems wirklich zu verstehen und künftig besser verhindern zu können und zweitens die Erhöhung der Ausfallsicherheit durch redundante Systeme, die im Notfall möglichst unterbrechungsfrei den Dienst übernehmen können.

Im konkreten Fall wurde nach der Störung vom 15. Oktober ein Umschaltmotor zwischen den Stromkreisen ausgetauscht. Darüberhinaus arbeiten Hoster, Rechenzentrum und Hersteller der Stromversorgungsanlagen an einer Klärung des abweichend dokumentierten Verhaltens der Anlagen zusammen. Die Einrichtung einer zusätzlichen Notfallstromversorgung wird diskutiert.

Die Störungen vom 19. und 21. Oktober im Bereich der Netzwerkswitches werden im Rahmen von Wartungsarbeiten angegangen werden, ein Umbau wird hier stattfinden. Voraussichtlich in der kommenden Woche werden wir hierzu weitere Informationen paratstellen.

Weitreichendere Maßnahmen wie den Aufbau redundanter Notfallserver in einem anderen Rechenzentrum überdenken wir aktuell.

Auf der Positivseite möchten wir anmerken, dass wir trotz der aktuell gehäuft auftretenden Störungen großes Vertrauen in unseren Hoster SysEleven haben, bei denen fünf Server von mite seit März ihr Zuhause haben. Überwachungssysteme schlugen jeweils binnen einer Minute zuverlässig an, binnen fünf Minuten waren Techniker vor Ort. Geschäftsführung und Technikleitung informierten uns stets persönlich, zeitnah, detailliert und transparent über Hintergründe und weitere Maßnahmen. Sie sind ebenfalls höchst unzufrieden und setzen alles daran, die Probleme stabil und langfristig in den Griff zu bekommen. Den Rest des Jahres wird alle Konzentration in eine Überprüfung, Optimierung und Absicherung des aktuellen Setups fließen, diese Arbeiten haben Vorrang vor neuen Funktionalitäten. Schlussendlich zeigt SysElevens Historie der letzten 10 Jahre, dass die aktuelle Situation auch auf ihrer Seite absolut nicht die Regel ist.

Verfügbarkeit von mite im Jahresschnitt 2010: 99,93%

Abschließend möchten wir die vergangenen Ausfälle in einen etwas größeren Kontext stellen. Die Störungen haben wir zum Anlass genommen, die Verfügbarkeit von mite im Jahresmittel zu anlysieren um euch eine bessere Einschätzung der Gesamtsituation zu ermöglichen.

mite war vom 1.1.2010 bis zum heutigen Tag aufgrund außerplanmäßiger Störungen insgesamt 295 Minuten nicht erreichbar. Dies entspricht einer Verfügbarkeit des Dienstes von 99,93%. Selbst bei Hinzuzählen planungsmäßiger Wartungsarbeiten war mite unterm Strich zu 99,89% verfügbar.

Die fehlenden Ziffern hinterm Komma sind zwar wenige, doch zehren sie an uns. Unser Anspruch ist ein höherer. Wir werden alles Sinnvolle daran setzen, die Verfügbarkeit weiter zu maximieren. Wir bitten um euer Vertrauen: Der Maschinenraum wird wieder geschmeidiger arbeiten. Solltet ihr weitere Informationen wünschen: bitte, jederzeit!


Kommentare

Christoph am 22. Okt 2010 um 18:40

Kunde an Maschinenraum: Wir sind wieder auf Kurs. Alles ist einigermaßen glimpflich verlaufen. Gerade eure Kundschaft, die zu weiten Teilen sicherlich auch aus Agenturen, Freelancern und “Webbutzen” besteht, kann solche Ausfälle nachvollziehen und sie dürften für die meisten auch nichts neues sein.

Solange Ihr in diesem Umfang informiert und die o.g. Schritte getan werden, ist doch alles wieder “tutti”.

Oberstes Ziel auf jeden Fall: Datensicherheit und mein einziger Maximalwunsch: Wartungen etc. immer nachts. Das macht Ihr sowieso.

Grüße von der Brücke. Volldampf voraus.

Julia am 22. Okt 2010 um 18:44

Lieber Christoph, unseren herzlichen Dank für deine so verständnisvolle und supernette Reaktion – ein Geschenk! Wartungsfenster werden wir soweit wir dies steuern können selbstverständlich weiterhin nachts einplanen, meist sogar in einer Nacht des Wochenendes. Das versteht sich von selbst.

Thomas am 22. Okt 2010 um 18:49

Imho:

Nicht dass ich euch die kleinen Ausfälle übel nehmen würde, auch uns sind solche Sachen schon passiert (gegen ein Samstag Abend abrauchendes Netzteil kann man z.B. auch nichts machen).

Aber: "Keine Hardware wird immer zu 100% funktionieren, nicht in unserem Rechenzentrum und nicht in anderen. Das ist leider schlicht Realität, wir werden dies nicht grundsätzlich ändern können. "

Doch, das könnt ihr ändern. Was als großes Buzzword durchs Netz und Konferenzen geistert, kann eure Ausfahrt sein: Cloud Computing. Die Wahrscheinlichkeit, dass ein komplettes Datacenter von Amazon, Microsoft oder Google abraucht, tendiert gegen Null. Und selbst wenn dem so wäre, existieren noch andere, die einspringen können.

Imho gehören SaaS-Angebote heute in die Cloud. Neben Verfügbarkeit bekommt ihr natürlich auch ungleich mehr Skalierbarkeit, nach unten wie nach oben.

Ich würde das als Option mal ins Auge fassen.

Julia am 22. Okt 2010 um 18:55

Danke für deinen Kommentar, Thomas, auch echte Cloud-Lösungen ziehen wir natürlich in Betracht. Mit der Aussage, dass keine Hardware zu 100% funktionieren kann, bezogen wir uns schlicht auf Fälle wie ein abrauchendes Netzteil – das kann allerortens passieren. Aber architekturseitig können wir besser gegensteuern, flexibler ausweichen. An diesem Part arbeiten wir stetig und werden das auch weiterhin tun.

Thomas am 22. Okt 2010 um 19:24

In der Cloud kann kein Netzteil abrauchen und es wird auch kein Switch ausfallen. Vereinfacht gesprochen mietest du Instanzen virtueller Maschinen, die du einfach an- und abschalten (dazu- und wegbuchen) kannst. Damit sind derartige Fehler im Prinzip ausgeschlossen.

Julia am 22. Okt 2010 um 19:35

Danke, Thomas. SLAs haben jedoch auch diese Anbieter nicht ohne Grund, mehrstündige Outages sind dort in der Vergangenheit ebenfalls aufgetreten. Als Option zugunsten einer Erhöhung der Verfügbarkeit ziehen wir diesen Punkt jedoch wie geschrieben natürlich in Betracht, das Potential ist fraglos da.

Thomas am 22. Okt 2010 um 20:03

“SLAs haben jedoch auch diese Anbieter nicht ohne Grund, mehrstündige Outages sind dort in der Vergangenheit ebenfalls aufgetreten.”

Touché ;-). Ich komme halt aus der Microsoft-Ecke, die gerade ganz extrem Azure pushen. Ein kleiner Blick hinter die Kulissen ist da schon beeindruckend, die denken nicht mehr in Servern sondern nur noch in Containern. Und der Betrieb einer normalen Website/Webanwendung mit zwei Instanzen (=Ausfallsicherheit) startet dort wohl bei um die 100€/Monat. Aber du hast recht, nobody is perfect.

Julia am 22. Okt 2010 um 20:10

Nobody is perfect – traurige Wahrheit. Aber ein bisschen weiter in die Richtung kommen wir alle doch hoffentlich! ;-) Davon ab: der Preis ist wirklich nicht unser Punkt, wir liegen hier aktuell etwa beim Zehnfachen. Nur ist die Welt in den Wolken eben auch nicht nur dufte… Schönen Abend dir, so oder so und danke nochmal für dein konstruktives Mitdenken, Thomas!

Jascha am 23. Okt 2010 um 4:00

Hey, ich wollte an dieser Stelle mal anmerken: Ihr macht echt tolle Arbeit. Ich bin wohl eher ein kleinerer Nutzer, den diese Ausfälle (solange die Daten sicher sind) kaum beeinträchtigt (notfalls nehm ich halt wieder eine Exceltabelle), aber das ihr dennoch so umfangreich informiert und versucht Fehler zu beheben finde ich wirklich beispielhaft. Bin gerne Kunde bei euch und werde euch auch in Zukunft weiter empfehlen.

Liebe Grüße (zurzeit aus Mexiko)

Bastian am 23. Okt 2010 um 8:54

Hi zusammen, auch ich möchte kurz zusammenfassen, was ich denke: ich denke, Ihr macht das super! Wie auch Jascha, beeinträchtigen mich diese kleinen Ausfälle eher selten bis gar nicht, insofern ist die Verfügbarkeit von 99,89% schon grandios!

Wirklich begeistert bin ich aber von den wertvollen und umfangreichen Informationen aus Eurem Hause. Da ich selbst ein paar Server habe & noch ein paar mehr betreue, kann ich die technische Seite vollkommen nachvollziehen. Mir geht sozusagen auch jedes Mal der “A**** auf Grundeis”, wenn es ein Problem mit einem Server gibt (sei es nur ein E-Mail Server).

Das wichtigste ist jedoch, und das macht Ihr ja auch sehr deutlich, dass die Daten sicher sind und da ich SysEleven ebenfalls kenne, zudem auch schon mehrmals mit ihrem CEO oder den Technikern kommuniziert habe, weiß ich, dass diese Probleme nicht unbeachtet bleiben und bis ins Detail aufgeklärt werden.

Weiter so! Ich kenne zur Zeit kein anderes Team, das sich so gut um seine “Kunden” kümmert!

Julia am 23. Okt 2010 um 12:04

Lieber Jascha, lieber Bastian: Ich hoffe ihr wisst, was uns solch Kommentare bedeuten. Unseren herzlichen Dank für euer Verständnis!

Dirk am 25. Okt 2010 um 14:30

Hi nach Berlin, ich möchte mich nur schnell Bastian und Jascha anschließen. Tolles Angebot, Tolle Arbeit! Vielen Dank! :-)

Carsten am 27. Okt 2010 um 2:04

Erstmal mein Beileid zur erlebten Situation! Ich wunderte mich nur über die Wartungsarbeiten mitten am Tag und fand die mittlerweile gewohnt schnelle Info von Euch zu dem Problem. Dankeschön dafür!

Ich finde es angehmen wie ihr das Thema angeht. Keine Hektik, keine Schmähung des Dienstleisters, sondern erstmal der Sache auf den Grund gehen.

Und nicht vergessen: “There’s a point where the cloud hits the ground” ^^

Julia am 27. Okt 2010 um 9:42

Lieber Dirk, lieber Carsten: Unseren herzlichen Dank auch an euch für eure so nachsichtigen Worte! Das tut wirklich gut und motiviert noch eine Spur mehr – merci!

Lucas am 4. Nov 2010 um 13:23

Das passiert den besten Leuten. Wir nehmen euch den Ausfall auf jeden Fall nicht über … ich denke, jeder von uns hatte schon mal solche Ausfälle und Probleme. Finde es toll von euch, dass ihr uns erklärt warum es dazu kam. Vielen Dank.

Christian am 9. Nov 2010 um 18:32

Es gibt viele Dienste, die hier und da mal nicht funktionieren. Die Bahn und mein Kabelanschluß sind mir vertraute Bekannte in dieser Kategorie. Gut, mite ist auch mal platt gewesen. So what?

Aber: Im Gegensatz zu den beiden oben- und erstgenannten höre ich aus dem Hause Yolk keine albernen Ausreden, die in PR-geschulter nonchalanter Art versuchen, mich, den Kunden, für dumm zu verkaufen. Bei euch läuft kein Band, auf dem die Worte “Wir bitten um Verständnis” zu hören sind.

[Nicht, dass ich euch unterstellen wollte, nicht PR-geschult zu sein… ihr wisst, was ich meine.]

Und das ist besonders erfrischend, dafür würde ich euch durchaus noch ein paar Zehntel nachsehen. :-) So long!

Julia am 9. Nov 2010 um 18:37

Lieber Lucas, lieber Christian: Mit so viel Verständnis hätten wir niemals gerechnet und nicht rechnen dürften. Auch an euch ergo unseren allerherzlichsten Dank! Wir werden alles daran setzen, euer Vertrauen nicht zu enttäuschen. Merci!

Susanne am 10. Nov 2010 um 15:36

Also ich möchte als bislang Unbeteiligte einen kurzen Kommentar los werden. Ich bin von einer Eventagentur beauftragt, Zeiterfassungen zu recherchieren, es gibt hunderte… Und nun… (nicht nur aber auch) aufgrund dieses Blogs habe ich mich entschieden, mite als erstes ausgiebig zu testen. Mich beeindrucken Offenheit, Ehrlichkeit und Transparenz. Und auch die Loyalität eurer User. Über das Produkt kann ich noch nichts sagen, aber bald… :-) Gratulation an dieser Stelle, da können sich einige Unternehmen eine Scheibe abschneiden!

Gregor am 10. Nov 2010 um 16:23

Lieben Dank, Susanne, das freut uns natürlich ungemein! Wir wünschen uns natürlich, das auch der Test einen positiven Eindruck hinterlässt und stehen bei Fragen natürlich gerne & jederzeit zur Verfügung.

Dave am 15. Nov 2010 um 22:17

Ha, alle, die denken, dass es nur Hardware sein kann, die abrauchen kann seihen eines Besseren belehrt. Was, wenn ganze Teile des Internets ausfallen? Schon vergessen, vor einem halben Jahr gab es einen kompletten Ausfall auf dem gesamten .de-root (denic seih Dank). Alle, die hier nach 100 % Verfügbarkeit rufen oder den Cloud als die einzige Variante anpreisen: Das Internet ist ein fragiles, extrem schwer kontrollierbares Geflickel. Die Protokolle stammen mehr oder weniger allesamt aus den 70er-Jahren, das wird irgendwann wie ein Boomerang zurückkommen. Die Ansätze sind gut, aber die Basis ist keinesfalls redundant oder in irgend einer Weise sicher.
Letzte Woche ging für einen halben Tag bei uns in der Schweiz das mobile Datennetz der Swisscom nicht. Man hätte ja meinen können, die Welt gehe unter.

Selbst kommentieren?