Der Weg zum Ausfall war mit guten Absichten gepflastert

Eintrag veröffentlicht von Linden Lab - vor 2 Stunden (von mir übersetzt)

Hallo Einwohner!

Wir hatten diese Woche eine der längsten Ausfallzeiten in der jüngsten Erinnerung (etwa vier Stunden!), und ich möchte erklären, was passiert ist.

Diese Woche haben wir die dringend benötigte Wartung des Netzwerks durchgeführt, das Second Life betreibt. Die Kernrouter, die unser Rechenzentrum mit dem Internet verbinden, näherten sich dem Ende ihrer Lebensdauer und mussten aktualisiert werden, um unsere Cloud-Migration robuster zu gestalten.

Das Ersetzen der Core-Router auf einem Produktivsystem, das sehr aktiv genutzt wird, ist wirklich schwierig. Wir waren entschlossen, es richtig zu machen, also haben wir über einen Monat damit verbracht, all die Dinge zu planen, die wir tun würden, und in welcher Reihenfolge, einschließlich vollständiger Rollback-Pläne bei jedem Schritt. Wir haben sogar einen sehr erfahrenen Netzwerkberater eingestellt, der mit uns zusammenarbeitet, um sicherzustellen, dass wir einen wirklich guten Plan haben, mit dem Ziel, Second Life so wenig wie möglich zu unterbrechen und gleichzeitig zu verbessern.

Dieser vergangene Montag war der große Tag. Einige unserer Ingenieure (einschließlich unseres Netzwerkberaters) und ich selbst (der Teamleiter) sind sofort im Rechenzentrum angekommen. Wir sollten die Augen, Ohren und Hände auf dem Boden für eine andere Gruppe von Ingenieuren sein, die aus der Ferne daran arbeiteten, den von uns ausgearbeiteten Plan genauestens zu befolgen. Es war meine Aufgabe, das Geschehen auf dem Weg zu meinen Lindenkollegen im Labor und auch den Bewohnern über den Statusblog zu vermitteln. Ich habe dies getan, damit sich das Engineering-Team auf die anstehende Aufgabe konzentrieren kann.

Alles begann großartig. Wir haben den ersten neuen Core-Router in Betrieb genommen und den Verkehr ohne jegliche Auswirkungen auf das Stromnetz übertragen. Als wir mit der Arbeit am zweiten Kernrouter begannen, ging jedoch alles schief.

Im Rahmen der Verkehrsverlagerung auf den zweiten Router hat einer unserer Ingenieure ein Kabel in sein neues Zuhause verlegt. Wir wussten, dass es ein paar Sekunden Aufprall geben würde, und wir erwarteten das, aber es war schnell klar, dass etwas irgendwo nicht richtig funktionierte. Es gab einen Moment des Entsetzens im Rechenzentrum, als wir feststellten, dass der gesamte Verkehr aus Second Life aufgehört hatte zu fließen, und wir wussten nicht warum.

Nachdem der Schock nachgelassen hatte, beschlossen wir schnell, den gescheiterten Schritt zurückzunehmen, aber es war zu spät. Jeder, der zu diesem Zeitpunkt in Second Life eingeloggt war, war auf einmal abgemeldet worden. Die Parallelität im gesamten Netz fiel fast sofort auf Null. Wir haben uns entschieden, die Anmeldung im gesamten Netz zu deaktivieren und die Netzwerkverbindung zu Second Life so schnell wie möglich wiederherzustellen.

An dieser Stelle hatten wir ein kurzes Treffen mit den verschiedenen Interessengruppen und waren uns einig, dass es, da wir bereits unten waren, das Richtige war, weiterzumachen und herauszufinden, was passiert ist, damit wir vermeiden konnten, dass es wieder passiert. Wir haben ein paar andere Leute gefunden, die mit den Bewohnern über den Statusblog, Social Media und Foren kommunizieren, und ich habe mit der internen Kommunikation innerhalb des Labors Schritt gehalten, während die Ingenieure das Problem debuggten.

Aus diesem Grund wurden die Anmeldungen für mehrere Stunden deaktiviert. Wir waren entschlossen, herauszufinden, was passiert war, und das Problem zu beheben, denn wir wollten unbedingt nicht, dass es wieder passiert. Wir haben unser Netzwerk so konzipiert, dass jedes Teil ohne Verbindungsverlust ausfallen kann, also mussten wir uns mit diesem Fehler befassen, um genau zu verstehen, was passiert ist.

Nach fast vier sehr intensiven Stunden des Debuggens fand das Team heraus, was schief gelaufen war, arbeitete daran und beendete die Migration auf die neue Netzwerkausrüstung. Wir öffneten wieder die Logins, überwachten das Netz, als die Bewohner zurückkehrten, und gingen mitten in der Nacht nach Hause, völlig erschöpft.

Wir haben den Rest dieser Woche damit verbracht, mit dem Hersteller unserer Netzwerkgeräte zusammenzuarbeiten, um das Problem zu beheben und viele Tests durchzuführen. Wir konnten die Bedingungen, die zu dem Netzwerkausfall geführt haben, reproduzieren und unsere Geräte testen, um sicherzustellen, dass es nicht wieder passiert (Selbst sie waren anfangs verwirrt! Es war ein sehr kniffliges Thema). Ab Mitte der Woche konnten wir eine ganze Reihe von Tests durchführen, einschließlich des absichtlichen Trennens und Herunterfahrens eines Routers, ohne Auswirkungen auf das Netz.

Second Life ist ein wirklich komplexes verteiltes System, und es überrascht mich immer wieder. Diese Woche war sicherlich keine Ausnahme.

Ich möchte auch eine Frage beantworten, die diese Woche mehrmals in den Foren und anderen Orten gestellt wurde. Diese Frage ist "warum hat uns die LL nicht genau gesagt, wann diese Wartung stattfinden wird"?

Wie ich in der Vergangenheit mehrmals bloggen musste, ist die traurige Realität, dass es Leute gibt, die diese Informationen mit böser Absicht nutzen würden. Zum Beispiel sind wir normalerweise sehr gut im Umgang mit DDoSes, aber es erfordert unsere volle Kapazität, um dies zu tun. Ein DDoS, das gleichzeitig mit der laufenden Netzwerkwartung getroffen wurde, hätte die Ausfallzeit viel länger gemacht, als sie es bereits war.

Wir wollen immer das Beste für Second Life. Wir lieben SL auch. Wir müssen vorsichtige Entscheidungen treffen, auch wenn sie zuweilen auf Kosten der Unklarheit gehen. Ich wünschte, das wäre nicht der Fall, aber leider ist es das sehr.

Wir entschuldigen uns wirklich für die Ausfallzeiten dieser Woche. Wir taten alles, was wir konnten, um zu versuchen, es zu vermeiden, und doch geschah es trotzdem. Ich fühle mich deswegen schrecklich.

Die Woche war ziemlich schrecklich, aber sie hat einen tollen Silberstreifen. Second Life ist nun mit neuen Core-Routern ausgestattet, die viel leistungsfähiger sind als alles, was wir bisher hatten, und wir hatten die Möglichkeit, viele Fehlerprüfungen durchzuführen. Es war eine harte Woche, aber das Netz ist dadurch besser in Form.

Vielen Dank für Ihre Geduld, da wir uns von diesem unerwarteten Ereignis erholt haben. Es war wirklich ermutigend zu sehen, welche Unterstützung einige Leute uns seit dem Ausfall gegeben haben. Danke, du hast wirklich geholfen, viele von uns aufzumuntern. ❤️

Bis zum nächsten Mal,
April Linden
Second Life Betriebsleiter

Englische Quelle

Anmerkung: Also sie haben die Wartungszeiten schon Tage vorher angekündigt, da kann man nicht meckern. Ich finde es toll das sie diesen Text verfasst haben.

Kommentare

Beliebte Posts

Simtipp: Themys (Adult)

Simtipp: Cherishville - spring 2024 (Moderat)

Simtipp: Piazza Dell'Artista und Benvenuto A Bella Villaggio Di Gaia (Moderat)

Simtipp: Reality Escape ist wieder offen (Adult)

Simtipp: RAVENMORE (Moderat)