[LL BLOG] - DIE GESCHICHTE HINTER DEM UNERWARTETEN AUSFALL IN DER LETZTEN WOCHE
Von Linden Lab am 09.05.2016 um 10:22am
PDT (19:22 Uhr MESZ)
Hallo! Ich bin ein Mitarbeiter aus dem
Second Life Bereitschaftsteam. Am Freitagnachmittag hatten große
Teile von Second Life einige ungeplante Ausfallzeiten und ich möchte
mir ein paar Minuten Zeit nehmen, zu erklären, was passiert ist.
Am vergangenen Freitag, den 6. Mai
2016, kurz vor 4:15pm PDT/SLT (1:15 Uhr nachts MESZ), stürzte der
primäre Netzknoten für eine der zentralen Datenbanken ab, die
Second Life am Laufen halten. Der Datenbankknoten, der abgestürzt
war, enthält einige der Kerndaten für Second Life und eine ganze
Menge Dinge hören auf zu arbeiten, wenn diese Daten nicht zugänglich
sind, was viele Einwohner auch gemerkt haben.
Wenn der primäre Knoten in dieser
Datenbank offline ist, schalten wir eine Reihe von Diensten ab, so
dass wir das Grid auf eine kontrollierte Art und Weise wieder
hochfahren können, indem wir einen nach dem anderen reaktivieren.
Mein Team hat schnell reagiert und wir
waren in der Lage, einen baugleichen Knoten in die Hardware-Kette zu
integrieren, um den Primärknoten zu ersetzen, der abgestürzt war.
Alle Dienste wurden innerhalb einer knappen Stunde vollständig
wiederhergestellt und eingeschaltet.
Ein zusätzliches (und völlig
unerwartetes) Problem, das dann aufgetreten ist, war dass während
dem ersten Teil des Ausfalls unser Status Blog unzugänglich war.
Unser Support-Team nutzt diesen Status Blog, um Bewohner darüber zu
informieren, was los ist, wenn es ein Problem gibt. Und die Anzahl
von Zugriffen während eines Ausfalls ist ziemlich beeindruckend!
Vor ein paar Wochen haben wir unserenStatus Blog auf neue Server umgezogen (Anm.: ich habe darüber hier berichtet).
Es kann eine schwierige Aufgabe sein, ein System für etwas wie einen
Status Blog richtig einzustellen, weil die Zugriffsrate von ihrer
normalen Belastung ganz plötzlich auf ein Vielfaches ansteigen kann.
Wir sehen nun, dass wir ein paar zusätzliche Abstimmungen am Status
Blog vornehmen müssen, nachdem er in seinem neuen Zuhause angekommen
ist. (Vergesst nicht, dass ihr uns auch auf Twitter unter
@SLGridStatus folgen könnt. Das ist wirklich praktisch, wenn der Status-Blog
einmal nicht erreichbar ist!)
Wie Landon Linden schon vor einem Jahr
schrieb: Wenn man bei einem Ausfall mit seinem Team zusammen
arbeitet, ist das so, als beobachte man "ein Ballett in einem
Kriegsgebiet". Wir geben alles, um Second Life-Dienste
wiederherzustellen, sobald sie ausfallen. Und dieser Ausfall war
keine Ausnahme. Es kann aber manchmal ziemlich verrückt sein!
Die unerwartete Ausfallzeit am Ende der
vergangenen Woche tut uns wirklich leid. Es gibt eine Menge lustiger
Dinge, die am Freitagabend in Second Life passieren und das Letzte
was wir wollen, ist wegen technischen Problemen dem in die Quere zu
kommen.
April Linden
Kommentare
Kommentar veröffentlichen