Login Deutsch

October 22, 2010

20 comments

Last downtimes in detail

To put it mildly, we’re not satisfied with the current availability of mite. To be honest, we’re heavily frustrated. One hour of downtime on October 15th, fifteen minutes on the 19th and two hours during last night – that’s simply not the level of quality that mite is known for and that you can and should anticipate. We owe you. Not only another apology, but a detailed description of what went wrong and what we’re doing to prevent this from happening again.

What did happen?

Hardware failures in the data center caused all three outages, the app itself was and is running smoothly. The first failure wasn’t connected to the second and the third one. Bad luck and bad timing, it all came together.

On October 15th, an electricity problem occured in our primary data center, despite of redundant power systems being in place, of course. The power systems were undergoing maintenance, that’s when a switch between the two systems failed, due to a combination of a flawed documentation of the hardware supplier as well as a not perfect emergency plan. Power supply was recovered within half an hour, but the servers needed some more time to check all data and to resume their work properly.

The nightly outages on October 19th and 21th were caused by defect network switches. On the 19th, one of this switches broke. Within minutes, it was replaced. Yesterday night, two switches in one blade center by IBM failed simultaneously. Replacing the switches didn’t solve the problem. Servers had to be moved to another blade center, this took some more precious time.

What will be done about it?

Two notes upfront: one, no hardware will always work 100%, not in our data center and not in another one. That’ll simply not going to happen, that’s a reality we cannot change as much as we’d love to – but we can change how we deal with this reality. Two, our top priority is to assure that your data is totally safe, at any given point of time. To guarantee this guideline, we’ll even keep up with some more minutes of downtime, in case of doubt.

What we can do and will do, is a) throw light on every little failure to really understand it and therefore be able to prevent this from happening in the future, and b) enhance uptime by putting more redundancy in place.

In this particular case, after October 15th, the motor to switch between the different power systems was replaced. Plus, our hoster, the folks from the data center and the manufacturer of the systems have joined forces to clarify the error in the documentation and to fix it. Plus, they are discussing to implement another redundant power system on top of the existing one.

The network switches that caused the downtimes of October 19th and 21th will undergo a scheduled maintenance, probably during the next week. We’ll update as soon as we have more information.

At the moment, we’re thinking about how to add even more redundancy on our side, e.g. by adding further systems that could take over in case of a hardware failure.

On the bright side, we’d like to point out that we trust our primary hosting Partner, SysEleven, despite of those numerous downtimes. Monitoring informed us within a minute. Technicians were hands on within five minutes. CEO and head of IT updated us on an ongoing basis, in detail and in a transparent way. They are deeply sorry and definetely unsatisfied with the status quo, as well. They’ll focus on improving the current set-up during the rest of 2010, no new features will be taken on. All in all, their 10 years hosting history shows that this is not the norm, without a question.

Uptime of mite in 2010: 99,93%

Concluding, we’d like to talk about the bigger picture. We analyzed previous downtimes to help you put this into perspective.

From January 1st 2010 until today, mite was unexpectedly down for a total of 295 minutes. This is an uptime of 99,93%. Even if we included scheduled maintenance, mite was up for 99,89%, all in all.

The gap to 100,00% is not big, but not satisfying. We aim to be better than this. We’ll keep on improving every little detail to maximize uptime even further. Please, trust us: we will get better. If you’d like any further information: please, get in touch!


Comments

Christoph on Oct 22, 2010 at 18:40

Kunde an Maschinenraum: Wir sind wieder auf Kurs. Alles ist einigermaßen glimpflich verlaufen. Gerade eure Kundschaft, die zu weiten Teilen sicherlich auch aus Agenturen, Freelancern und “Webbutzen” besteht, kann solche Ausfälle nachvollziehen und sie dürften für die meisten auch nichts neues sein.

Solange Ihr in diesem Umfang informiert und die o.g. Schritte getan werden, ist doch alles wieder “tutti”.

Oberstes Ziel auf jeden Fall: Datensicherheit und mein einziger Maximalwunsch: Wartungen etc. immer nachts. Das macht Ihr sowieso.

Grüße von der Brücke. Volldampf voraus.

Julia on Oct 22, 2010 at 18:44

Lieber Christoph, unseren herzlichen Dank für deine so verständnisvolle und supernette Reaktion – ein Geschenk! Wartungsfenster werden wir soweit wir dies steuern können selbstverständlich weiterhin nachts einplanen, meist sogar in einer Nacht des Wochenendes. Das versteht sich von selbst.

Thomas on Oct 22, 2010 at 18:49

Imho:

Nicht dass ich euch die kleinen Ausfälle übel nehmen würde, auch uns sind solche Sachen schon passiert (gegen ein Samstag Abend abrauchendes Netzteil kann man z.B. auch nichts machen).

Aber: "Keine Hardware wird immer zu 100% funktionieren, nicht in unserem Rechenzentrum und nicht in anderen. Das ist leider schlicht Realität, wir werden dies nicht grundsätzlich ändern können. "

Doch, das könnt ihr ändern. Was als großes Buzzword durchs Netz und Konferenzen geistert, kann eure Ausfahrt sein: Cloud Computing. Die Wahrscheinlichkeit, dass ein komplettes Datacenter von Amazon, Microsoft oder Google abraucht, tendiert gegen Null. Und selbst wenn dem so wäre, existieren noch andere, die einspringen können.

Imho gehören SaaS-Angebote heute in die Cloud. Neben Verfügbarkeit bekommt ihr natürlich auch ungleich mehr Skalierbarkeit, nach unten wie nach oben.

Ich würde das als Option mal ins Auge fassen.

Julia on Oct 22, 2010 at 18:55

Danke für deinen Kommentar, Thomas, auch echte Cloud-Lösungen ziehen wir natürlich in Betracht. Mit der Aussage, dass keine Hardware zu 100% funktionieren kann, bezogen wir uns schlicht auf Fälle wie ein abrauchendes Netzteil – das kann allerortens passieren. Aber architekturseitig können wir besser gegensteuern, flexibler ausweichen. An diesem Part arbeiten wir stetig und werden das auch weiterhin tun.

Thomas on Oct 22, 2010 at 19:24

In der Cloud kann kein Netzteil abrauchen und es wird auch kein Switch ausfallen. Vereinfacht gesprochen mietest du Instanzen virtueller Maschinen, die du einfach an- und abschalten (dazu- und wegbuchen) kannst. Damit sind derartige Fehler im Prinzip ausgeschlossen.

Julia on Oct 22, 2010 at 19:35

Danke, Thomas. SLAs haben jedoch auch diese Anbieter nicht ohne Grund, mehrstündige Outages sind dort in der Vergangenheit ebenfalls aufgetreten. Als Option zugunsten einer Erhöhung der Verfügbarkeit ziehen wir diesen Punkt jedoch wie geschrieben natürlich in Betracht, das Potential ist fraglos da.

Thomas on Oct 22, 2010 at 20:03

“SLAs haben jedoch auch diese Anbieter nicht ohne Grund, mehrstündige Outages sind dort in der Vergangenheit ebenfalls aufgetreten.”

Touché ;-). Ich komme halt aus der Microsoft-Ecke, die gerade ganz extrem Azure pushen. Ein kleiner Blick hinter die Kulissen ist da schon beeindruckend, die denken nicht mehr in Servern sondern nur noch in Containern. Und der Betrieb einer normalen Website/Webanwendung mit zwei Instanzen (=Ausfallsicherheit) startet dort wohl bei um die 100€/Monat. Aber du hast recht, nobody is perfect.

Julia on Oct 22, 2010 at 20:10

Nobody is perfect – traurige Wahrheit. Aber ein bisschen weiter in die Richtung kommen wir alle doch hoffentlich! ;-) Davon ab: der Preis ist wirklich nicht unser Punkt, wir liegen hier aktuell etwa beim Zehnfachen. Nur ist die Welt in den Wolken eben auch nicht nur dufte… Schönen Abend dir, so oder so und danke nochmal für dein konstruktives Mitdenken, Thomas!

Jascha on Oct 23, 2010 at 4:00

Hey, ich wollte an dieser Stelle mal anmerken: Ihr macht echt tolle Arbeit. Ich bin wohl eher ein kleinerer Nutzer, den diese Ausfälle (solange die Daten sicher sind) kaum beeinträchtigt (notfalls nehm ich halt wieder eine Exceltabelle), aber das ihr dennoch so umfangreich informiert und versucht Fehler zu beheben finde ich wirklich beispielhaft. Bin gerne Kunde bei euch und werde euch auch in Zukunft weiter empfehlen.

Liebe Grüße (zurzeit aus Mexiko)

Bastian on Oct 23, 2010 at 8:54

Hi zusammen, auch ich möchte kurz zusammenfassen, was ich denke: ich denke, Ihr macht das super! Wie auch Jascha, beeinträchtigen mich diese kleinen Ausfälle eher selten bis gar nicht, insofern ist die Verfügbarkeit von 99,89% schon grandios!

Wirklich begeistert bin ich aber von den wertvollen und umfangreichen Informationen aus Eurem Hause. Da ich selbst ein paar Server habe & noch ein paar mehr betreue, kann ich die technische Seite vollkommen nachvollziehen. Mir geht sozusagen auch jedes Mal der “A**** auf Grundeis”, wenn es ein Problem mit einem Server gibt (sei es nur ein E-Mail Server).

Das wichtigste ist jedoch, und das macht Ihr ja auch sehr deutlich, dass die Daten sicher sind und da ich SysEleven ebenfalls kenne, zudem auch schon mehrmals mit ihrem CEO oder den Technikern kommuniziert habe, weiß ich, dass diese Probleme nicht unbeachtet bleiben und bis ins Detail aufgeklärt werden.

Weiter so! Ich kenne zur Zeit kein anderes Team, das sich so gut um seine “Kunden” kümmert!

Julia on Oct 23, 2010 at 12:04

Lieber Jascha, lieber Bastian: Ich hoffe ihr wisst, was uns solch Kommentare bedeuten. Unseren herzlichen Dank für euer Verständnis!

Dirk on Oct 25, 2010 at 14:30

Hi nach Berlin, ich möchte mich nur schnell Bastian und Jascha anschließen. Tolles Angebot, Tolle Arbeit! Vielen Dank! :-)

Carsten on Oct 27, 2010 at 2:04

Erstmal mein Beileid zur erlebten Situation! Ich wunderte mich nur über die Wartungsarbeiten mitten am Tag und fand die mittlerweile gewohnt schnelle Info von Euch zu dem Problem. Dankeschön dafür!

Ich finde es angehmen wie ihr das Thema angeht. Keine Hektik, keine Schmähung des Dienstleisters, sondern erstmal der Sache auf den Grund gehen.

Und nicht vergessen: “There’s a point where the cloud hits the ground” ^^

Julia on Oct 27, 2010 at 9:42

Lieber Dirk, lieber Carsten: Unseren herzlichen Dank auch an euch für eure so nachsichtigen Worte! Das tut wirklich gut und motiviert noch eine Spur mehr – merci!

Lucas on Nov 4, 2010 at 13:23

Das passiert den besten Leuten. Wir nehmen euch den Ausfall auf jeden Fall nicht über … ich denke, jeder von uns hatte schon mal solche Ausfälle und Probleme. Finde es toll von euch, dass ihr uns erklärt warum es dazu kam. Vielen Dank.

Christian on Nov 9, 2010 at 18:32

Es gibt viele Dienste, die hier und da mal nicht funktionieren. Die Bahn und mein Kabelanschluß sind mir vertraute Bekannte in dieser Kategorie. Gut, mite ist auch mal platt gewesen. So what?

Aber: Im Gegensatz zu den beiden oben- und erstgenannten höre ich aus dem Hause Yolk keine albernen Ausreden, die in PR-geschulter nonchalanter Art versuchen, mich, den Kunden, für dumm zu verkaufen. Bei euch läuft kein Band, auf dem die Worte “Wir bitten um Verständnis” zu hören sind.

[Nicht, dass ich euch unterstellen wollte, nicht PR-geschult zu sein… ihr wisst, was ich meine.]

Und das ist besonders erfrischend, dafür würde ich euch durchaus noch ein paar Zehntel nachsehen. :-) So long!

Julia on Nov 9, 2010 at 18:37

Lieber Lucas, lieber Christian: Mit so viel Verständnis hätten wir niemals gerechnet und nicht rechnen dürften. Auch an euch ergo unseren allerherzlichsten Dank! Wir werden alles daran setzen, euer Vertrauen nicht zu enttäuschen. Merci!

Susanne on Nov 10, 2010 at 15:36

Also ich möchte als bislang Unbeteiligte einen kurzen Kommentar los werden. Ich bin von einer Eventagentur beauftragt, Zeiterfassungen zu recherchieren, es gibt hunderte… Und nun… (nicht nur aber auch) aufgrund dieses Blogs habe ich mich entschieden, mite als erstes ausgiebig zu testen. Mich beeindrucken Offenheit, Ehrlichkeit und Transparenz. Und auch die Loyalität eurer User. Über das Produkt kann ich noch nichts sagen, aber bald… :-) Gratulation an dieser Stelle, da können sich einige Unternehmen eine Scheibe abschneiden!

Gregor on Nov 10, 2010 at 16:23

Lieben Dank, Susanne, das freut uns natürlich ungemein! Wir wünschen uns natürlich, das auch der Test einen positiven Eindruck hinterlässt und stehen bei Fragen natürlich gerne & jederzeit zur Verfügung.

Dave on Nov 15, 2010 at 22:17

Ha, alle, die denken, dass es nur Hardware sein kann, die abrauchen kann seihen eines Besseren belehrt. Was, wenn ganze Teile des Internets ausfallen? Schon vergessen, vor einem halben Jahr gab es einen kompletten Ausfall auf dem gesamten .de-root (denic seih Dank). Alle, die hier nach 100 % Verfügbarkeit rufen oder den Cloud als die einzige Variante anpreisen: Das Internet ist ein fragiles, extrem schwer kontrollierbares Geflickel. Die Protokolle stammen mehr oder weniger allesamt aus den 70er-Jahren, das wird irgendwann wie ein Boomerang zurückkommen. Die Ansätze sind gut, aber die Basis ist keinesfalls redundant oder in irgend einer Weise sicher.
Letzte Woche ging für einen halben Tag bei uns in der Schweiz das mobile Datennetz der Swisscom nicht. Man hätte ja meinen können, die Welt gehe unter.

Got something to add?