[LL Blog] - WARUM DIE DINGE AM VERGANGENEN WOCHENENDE NICHT OPTIMAL LIEFEN
Von Linden Lab am
11.01.2016 um 3:07pm PDT (12.01.2016, 00:07 Uhr MEZ)
Blogübersetzung
Hallo! Ich bin ein
Mitarbeiter des Second Life Einsatzteams und ich war der direkte
Bereitschaftstechniker am vergangenen Wochenende. Wir hatten ein sehr
schwieriges Wochenende, also will ich mir ein paar Minuten Zeit nehmen, um euch
mitzuteilen, was passiert ist.
Wir hatten eine Reihe von
unabhängigen Fehlern, die für die rauen Gewässer verantwortlich waren, die
Einwohner inworld erlebten.
Am Samstag, den 9. Januar,
kurz nach Mitternacht Pazifischer Zeit, hatten wir einen Crash eines
Hauptknotens von einem der zentralen Datenbanken. Die zentrale Datenbank, die
es da erwischt hatte, ist eine der am häufigsten verwendeten Datenbanken in
Second Life. Ohne sie sind die Bewohner nicht in der Lage, sich anzumelden oder
eine Menge von wichtigen Dingen zu tun.
Diese Art von Versagen ist
etwas, mit dem mein Team gut zurechtkommt, aber wir brauchten Zeit, um eine
Kopie in der Serverkette bereitzustellen, damit diese schließlich zum neuen
Hauptknoten gemacht werden konnte. Während wir das getan haben, blockierten wir
die Logins und schlossen andere inworld Dienste, um die Auslastung für den neu
bereitgestellten Hauptknoten zu mindern, während er damit begann, Abfragen zu
starten. (Wir öffneten dann langsam das Grid und schalteten einen Dienst nach
dem anderen wieder ein, so dass die Datenbank in der Lage war, damit
umzugehen.) Dieser Bereitstellungsprozess dauerte etwa anderthalb Stunden und
das Grid lief um 1:30am (10:30 Uhr MEZ) wieder normal.
Nachdem diese Aktion
abgeschlossen war, lief das Grid wieder stabil für den Rest des Tages und
Abends am Samstag.
Das bringt uns zum
Sonntagmorgen.
Am Sonntag, den 10. Januar
um etwa 8:00am Pazifischer Zeit (17 Uhr MEZ), sind bei einem unserer Provider
Probleme aufgetreten, die inworld zu einer sehr schlechten Performance beim
Laden von Datenbankinhalten geführt haben. Ich bekam den Provider sehr schnell
ans Telefon, während sie bereits die Quelle des Problems verfolgten. Mit meinem
Team, die zusammen mit dem Remote-Team arbeiteten, konnten wir das Problem
erkennen und es am frühen Nachmittag beheben. Alle unsere Metriken sahen gut
aus und sowohl ich als auch meine Kollegen, konnten inworld wieder gut Objekte
rezzen. Das war der Zeitpunkt, an dem wir das erste "Alles läuft
wieder" in den Blog geschrieben haben, weil es so schien, dass die Dinge
wieder normal laufen.
Es dauerte nicht lange, um
zu realisieren, dass die Dinge erneut interessant wurden, wie auch immer.
Kurz nachdem wir alles für
behoben erklärt haben, drängten die Einwohner in das Grid zurück.
(Sonntagnachmittag gibt es inworld eine sehr hohe Auslastung, auch unter
normalen Umständen!) Der Ansturm der Bewohner, die nach Second Life
zurückkehrten (viele von ihnen hatten jetzt einen leeren Cache, der wieder
gefüllt werden musste), zu einer Zeit, in der unsere Auslastung eh schon am
höchsten ist, beanspruchte viele andere Subsysteme um das Mehrfache ihrer
normalen Last.
Rezzen von
Datenbankinhalten war nun in Ordnung, aber wir hatten andere Probleme zu lösen.
Es dauerte ein paar Stunden nach unserer ersten Entwarnung, bis wir unsere
anderen Dienste stabilisieren konnten. Wie einigen Leuten aufgefallen ist, war
das System mit der höchsten Last dasjenige, welches wir "Baking"
nennen - es erzeugt die Texturen, die ihr an eurem Avatar sehen könnt - und
damit hatten wir eine große Anzahl von Bewohnern, die entweder grau oder als
Wolken erschienen. (Das Baking versuchte immer noch, sich von dem vorherigen
Ausfall des Asset-Systems zu erholen!) Gegen Sonntagabend konnten wir das Grid
wieder stabilisieren und Second Life kehrte diesmal tatsächlich zum normalen
Betrieb zurück.
Eines der Dinge, die ich
an meiner Arbeit mag ist, dass Second Life eine völlig einzigartige und lustige
Umgebung ist! (Die Infrastruktur einer virtuellen Welt ist erstaunlich für
mich!) Das ist sowohl gut als auch schlecht. Es ist gut, weil wir oft die
Herausforderung haben, eine Lösung für ein Problem zu finden, die neu und
einzigartig ist, aber die Kehrseite davon ist, dass manchmal Dinge auf
unerwartete Weise versagen können, weil wir Sachen machen, die sonst niemand
tut.
Es tut mir wirklich leid,
wie rau die Dinge an diesem Wochenende inworld gewesen sind. Mein Team nimmt
die Stabilität des Grids sehr ernst und niemand kann Ausfallzeiten weniger
leiden als wir. Schon einer dieser Ausfälle, die unabhängig voneinander
geschehen, ist schlimm genug, aber wenn sie in einer Reihe auftreten, so wie
hier, ist es ziemlich miserabel.
Ich sehe euch inworld
(nachdem ich etwas Schlaf bekommen habe!),
April Linden
Kommentare
Kommentar veröffentlichen