Ankündigung von Wartungsarbeiten

Heute Abend, Freitag, werden wir mite ab 21 Uhr mitteleuropäischer Sommerzeit für 30 bis 45 Minuten offline nehmen müssen.

Das Wartungsfenster ist Konsequenz der Störung von heute Morgen. Unser Datenbankserver hatte sich verabschiedet. Um den Ausfall zur Tageszeit so kurz wie möglich zu halten, stellten wir auf unseren Ersatz-Datenbankserver um. Heute Abend wird die Datenbank von mite nun wieder auf den stärkeren Hauptserver zurückziehen. Die Wartungs-Auszeit ist leider notwendig, um Datenabweichungen absolut sicher verhindern zu können.

Ein weiteres und hoffentlich letztes Mal für lange Zeit: Bitten wir um euer Verständnis.

~~
Update: Die Wartungsarbeiten klappten wie geplant. mite war 21 Minuten nicht erreichbar.

Julia in Maschinenraum

Heutige Server-Probleme

Seit 10:37 mitteleuropäischer Sommerzeit ist mite leider nicht stabil erreichbar. Wir haben erneut mit Serverproblemen zu kämpfen.

Unsere Entschuldigung von Herzen für diese Störung! Wir werden alles daran setzen, mite schnellstmöglichst wieder stabil zum Laufen zu bekommen. Bitte werft für neueste Informationen einen Blick auf Twitter. Wir werden dort kontinuierlich über den aktuellen Fortgang der Arbeiten informieren.

~~
Update: Seit 11:49 Uhr ist mite nach einem Umzug auf andere Server-Hardware wieder erreichbar. Wir beobachten weiterhin mit Argusaugen, Details zu den Ursachen werden folgen. Unser Pardon noch einmal!

~~
Update II: Unterdessen konnten wir in Zusammenarbeit mit unserem Hoster die Ursache der Probleme identifizieren: Ein auf unserem Hardware-Node laufender Server eines anderen Kunden spielte verrückt und “klaute” unserem Datenbank-Server die notwendigen Ressourcen. Erstens hätte dies hosterseitig nicht passieren sollen, zweitens hätten auch wir diesen Störer fixer identifizieren und mite in Sicherheit bringen müssen. Bitte entschuldigt. Diese Störung hätten wir verhindern können.

~~
Update III, 27. Juli, 10:15 CEST: Wenn es kommt, dann offensichtlich im Doppelpack: Seit 9:52 CEST haben wir erneut mit Serverproblemen zu kämpfen, wiederum treten Probleme mit unserem Datenbank-Server auf. Bitte entschuldigt – was für ein Zusammentreffen! Wir sind dran, mit Hochdruck. Niemand ist dies alles mehr ein Dorn im Auge als uns.

~~
Update IV, 27. Juli, 11:26 CEST: Aktuell ist mite nach einigem Hin- und Her wieder erreichbar. Unseren Datenbank-Server haben wir durch redundante Ersatz-Hardware ersetzt. Bitte werft für neueste Informationen einen Blick auf Twitter.

~~
Update V, 27. Juli, 17:01 CEST: mite läuft. Um weitere Störungen zu verhindern, werden wir heute Abend Wartungsarbeiten durchführen.

Julia in Maschinenraum

Ankündigung von Wartungsarbeiten

Am Samstag, den 16. Juni, werden frühmorgens zwischen 5:30 und 7:30 Uhr mitteleuropäischer Sommerzeit Wartungsarbeiten in unserem Hauptrechenzentrum vorgenommen werden. mite wird innerhalb dieses Zeitfensters nur einige wenige Minuten nicht verfügbar sein.

Die morgigen Wartungsarbeiten sind Konsequenz der letzten Störung. Netzwerkhardware (Switches) werden nun durch Systeme eines anderen Herstellers ausgetauscht werden, um künftige Zickereien in diesem Bereich auszuschließen. Wir bitten um euer Verständnis!

~~
Update: Die Wartungsarbeiten liefen wie geplant, mite war keine drei Minuten betroffen.

Julia in Maschinenraum

Heutige Downtime

Zwischen 14:04 Uhr und 14:33 Uhr mitteleuropäischer Sommerzeit war mite heute leider erneut nicht erreichbar. Unser Pardon für den Hickhack! Verantwortlich für diese Störung war ein Hardwareausfall in unserem primären Rechenzentrum, der leider nicht wie geplant durch redundante Systeme aufgefangen werden konnte.

Bitte entschuldigt. Diese zweite Auszeit in kurzer Zeit ist uns ebensolch ein Dorn im Auge wie euch.

Nichtsdestotrotz möchten wir diese Störung zum Anlass nehmen, uns bei unserem Hoster SysEleven und deren Technikern für den schnellen Einsatz zu bedanken. Wenige Minuten nach dem Läuten der Alarmglocken waren sie bereits vor Ort und behoben das kaputte Teil. Unser Merci geht ebenso an eure zahlreichen Meldungen via Twitter, Mail und Chat wie vor allem für eure bisherigen verständnisvollen Reaktionen. Ein Geschenk! Auch wenn der heutige Tag zeigt, dass kurze Störungen leider nicht vollauf ausgeschlossen werden können – wir werden euer Vertrauen nicht enttäuschen.

Julia in Maschinenraum

Heutige Server-Probleme

Zwischen 15:29 und 15:50 Uhr mitteleuropäischer Sommerzeit war mite heute leider immer wieder nicht erreichbar. Es kam zu Verbindungs- und Serverfehlern.

Unsere Entschuldigung für diese Störung! Wir nehmen diesen Aussetzer definitiv nicht auf die leichte Schulter und setzen alles daran setzen, mite wieder wie gewohnt stabil am Laufen zu halten. Darauf könnt ihr zählen.

Julia in Maschinenraum

Excel- & CSV-Export: ab zum Krafttraining

Respekt: Über 100.000 Zeiteinträge hat der fleißigste Account bei mite unterdessen erfasst. Aber auch ab von diesem Ausreißer nimmt die Anzahl der Zeiten auf vielen Accounts zu – so einige haben inzwischen zehntausendfach den »Erstellen«-Button geklickt.

So schön das ist, so nervig eine Auswirkung: Der Export der Zeiteinträge Richtung Excel oder als CSV-Datei, zu finden unter dem Menüpunkt »Reports => Zeiten«, ging bei diesen Datenmengen teils in die Knie.

Zeit für ein Krafttraining. Mit dem heute veröffentlichten Umbau läuft der Export nun auch bei vielen Zeiteinträgen wieder anstandslos durch. Und das deutlich fixer, bis zu dreimal so geschwind. Voran voran, auf die nächsten Tausender!

Julia in Maschinenraum, Neue Features

Ankündigung von Wartungsarbeiten

In der Nacht von Sonntag, den 22. Januar auf Montag, den 23. Januar wird mite zwischen 0:15 und ~0:45 Uhr mitteleuropäischer Zeit nicht verfügbar sein. Hintergrund dieser kleinen Verschnaufpause ist ein Umzug von mite auf neue, leistungsstärkere Server. Wir bitten um euer Verständnis!

Update, 23. Januar: Die Wartungsarbeiten liefen wie geplant.

Julia in Maschinenraum

Heutige Nicht-Erreichbarkeit

Seit 21:21 mitteleuropäischer Sommerzeit ist mite für einige Benutzer momentan leider nicht erreichbar – für andere läuft alles reibungslos. Das Problem hängt nach aktuellem Wissensstand am Routing im Rechenzentrum.

Unsere Entschuldigung von Herzen für diese Störung! Wir werden alles daran setzen, mite schnellstmöglichst wieder stabil für alle zum Laufen zu bekommen. Bitte werft für neueste Informationen einen Blick auf Twitter. Wir werden dort kontinuierlich über den aktuellen Fortgang der Arbeiten informieren.

~~
Update, 22:33 Uhr: mite ist nun wieder für alle Nutzer erreichbar. Eine Verkettung von Hardwareproblemen – Routing, Switch, Blade – war verantwortlich. Daten waren selbstverständlich zu keinem Zeitpunkt in Gefahr. In Zusammenarbeit mit unserem Hoster werden wir uns die Ursache dieser Störung en Detail ansehen und prüfen, wie sich ähnliche Probleme künftig vermeiden lassen. Unsere Entschuldigung noch einmal!

Julia in Maschinenraum

Ankündigung von Wartungsarbeiten: Freitagnacht

Update 6:17 Uhr: Die Wartungsarbeiten wurden soeben erfolgreich abgeschlossen, mite ist nun wieder erreichbar. Unseren herzlichen Dank für eure so große Geduld! Bitte meldet euch bei uns, falls euch diese Wartung über das akzeptable Maß hinaus belästigt haben sollte; die deutliche Verzögerung tut uns wirklich leid.

Update 3:02 Uhr: Die Wartungsarbeiten nehmen wider Erwarten noch etwas länger in Anspruch. Unser Pardon für diese Verzögerung!

~~
In der Nacht von Freitag, den 26. November auf Samstag, den 27. November wird mite zwischen 1:00 und ~2:00 Uhr mitteleuropäischer Zeit aufgrund von Wartungsarbeiten an unseren Servern nicht verfügbar sein.

Im Rahmen der mehrwöchig vorbereiteten Wartungsarbeiten werden unsere Hauptserver innerhalb unseres Rechenzentrums auf eine eigens umgebaute Cage-Fläche mit ausfallsicherer Anbindung ziehen. Diese hardwareseitige Verbesserung ist eine der Konsequenzen, die wir in Zusammenarbeit mit unserem Hoster aus den Nicht-Erreichbarkeiten im Oktober gezogen haben, um künftig wieder ein stabileres mite gewährleisten zu können. Wir bitten um euer Verständnis!

Julia in Maschinenraum

En Detail: Die Störungen der letzten Tage

Gelinde gesagt sind wir mit der momentanen Verfügbarkeit von mite unzufrieden. Offen gesagt brennt hier gerade die Hütte. Eine einstündige Nicht-Erreichbarkeit am Nachmittag des 15. Oktober, eine fünfzehnminütige in der Nacht des 19. und nun noch eine zweistündige in der vergangenen Nacht mussten wir verzeichnen – das ist definitiv nicht die Qualität, für die mite steht. Wir sind euch nicht nur eine weitere Entschuldigung schuldig, sondern eine Erklärung.

Was genau ist passiert?

Alle drei Ausfälle wurden durch Fehler der Hardware im Rechenzentrum verursacht, die Anwendung selbst lief tadellos. Störung 1 war unabhängig von Störung 2 und 3; Unglück und Pech kamen hier leider zusammen.

Am 15. Oktober fiel – trotz selbstverständlich redundant ausgelegter Stromversorgungskreise – die Elektrizität in unserem primären Rechenzentrum aus. Im Rahmen von Wartungsarbeiten war dort ein Umschalten zwischen den separaten Stromkreisen eingeplant, das aufgrund einer Kombination aus fehlerhafter Dokumentation einer Anlage und einer nicht perfekten Notfallplanung schiefging. Die Stromversorgung konnte binnen einer halben Stunde wiederhergestellt werden, danach brauchten die Systeme noch einige Minuten, um Daten zu überprüfen und korrekt wiederhochzufahren.

Die nächtlichen Ausfälle am 19. und am 21. Oktober gingen beide auf das Konto von Netzwerkswitches. Am 19. fiel einer dieser Switches aus und wurde binnen Minuten ersetzt, dieser Defekt konnte sehr fix behoben werden. In der gestrigen Nacht traten auf beiden Netzwerkswitches eines IBM Bladecenters gleichzeitig Störungen auf. Ein Tausch der Switches fruchtete nicht. Der Fehler konnte erst durch einen leider zeitintensiveren Umbau auf ein Ersatzblade behoben werden.

Welche Maßnahmen greifen, um solch Ausfälle künftig zu verhindern?

Zwei Anmerkungen vorneweg: Keine Hardware wird immer zu 100% funktionieren, nicht in unserem Rechenzentrum und nicht in anderen. Das ist leider schlicht Realität, wir werden dies nicht grundsätzlich ändern können. Höchste und übergeordnete Priorität hat für uns die Sicherstellung der Datensicherheit. Eure Daten sind heilig, diese dürfen zu keinem Zeitpunkt in Gefahr sein. Zur Gewährleistung dieser Richtlinie nehmen wir im Zweifelsfall auch einmal eine um einige Minuten längere Nicht-Erreichbarkeit in Kauf.

Wo wir in Zusammenarbeit mit Hoster und Rechenzentrum jedoch fraglos ansetzen können und ansetzen, ist erstens die Klärung von Störungen bis ins letzte Detail, um die jeweilige Wurzel eines Problems wirklich zu verstehen und künftig besser verhindern zu können und zweitens die Erhöhung der Ausfallsicherheit durch redundante Systeme, die im Notfall möglichst unterbrechungsfrei den Dienst übernehmen können.

Im konkreten Fall wurde nach der Störung vom 15. Oktober ein Umschaltmotor zwischen den Stromkreisen ausgetauscht. Darüberhinaus arbeiten Hoster, Rechenzentrum und Hersteller der Stromversorgungsanlagen an einer Klärung des abweichend dokumentierten Verhaltens der Anlagen zusammen. Die Einrichtung einer zusätzlichen Notfallstromversorgung wird diskutiert.

Die Störungen vom 19. und 21. Oktober im Bereich der Netzwerkswitches werden im Rahmen von Wartungsarbeiten angegangen werden, ein Umbau wird hier stattfinden. Voraussichtlich in der kommenden Woche werden wir hierzu weitere Informationen paratstellen.

Weitreichendere Maßnahmen wie den Aufbau redundanter Notfallserver in einem anderen Rechenzentrum überdenken wir aktuell.

Auf der Positivseite möchten wir anmerken, dass wir trotz der aktuell gehäuft auftretenden Störungen großes Vertrauen in unseren Hoster SysEleven haben, bei denen fünf Server von mite seit März ihr Zuhause haben. Überwachungssysteme schlugen jeweils binnen einer Minute zuverlässig an, binnen fünf Minuten waren Techniker vor Ort. Geschäftsführung und Technikleitung informierten uns stets persönlich, zeitnah, detailliert und transparent über Hintergründe und weitere Maßnahmen. Sie sind ebenfalls höchst unzufrieden und setzen alles daran, die Probleme stabil und langfristig in den Griff zu bekommen. Den Rest des Jahres wird alle Konzentration in eine Überprüfung, Optimierung und Absicherung des aktuellen Setups fließen, diese Arbeiten haben Vorrang vor neuen Funktionalitäten. Schlussendlich zeigt SysElevens Historie der letzten 10 Jahre, dass die aktuelle Situation auch auf ihrer Seite absolut nicht die Regel ist.

Verfügbarkeit von mite im Jahresschnitt 2010: 99,93%

Abschließend möchten wir die vergangenen Ausfälle in einen etwas größeren Kontext stellen. Die Störungen haben wir zum Anlass genommen, die Verfügbarkeit von mite im Jahresmittel zu anlysieren um euch eine bessere Einschätzung der Gesamtsituation zu ermöglichen.

mite war vom 1.1.2010 bis zum heutigen Tag aufgrund außerplanmäßiger Störungen insgesamt 295 Minuten nicht erreichbar. Dies entspricht einer Verfügbarkeit des Dienstes von 99,93%. Selbst bei Hinzuzählen planungsmäßiger Wartungsarbeiten war mite unterm Strich zu 99,89% verfügbar.

Die fehlenden Ziffern hinterm Komma sind zwar wenige, doch zehren sie an uns. Unser Anspruch ist ein höherer. Wir werden alles Sinnvolle daran setzen, die Verfügbarkeit weiter zu maximieren. Wir bitten um euer Vertrauen: Der Maschinenraum wird wieder geschmeidiger arbeiten. Solltet ihr weitere Informationen wünschen: bitte, jederzeit!

Julia in Maschinenraum