[LL BLOG] - ABHANDEN GEKOMMENE VERBINDUNGEN
Linden Lab am 22.08.2017 um 4:07 PM PDT (23.08.2017, 1:07 Uhr MESZ) -
Blogübersetzung
Heya! Hier ist April Linden.
Wir hatten einen ziemlich harten Morgen hier im Lab und ich möchte
euch erzählen, was passiert ist.
Am frühen Morgen (während die Rolling Restarts liefen, was aber nur
Zufall war) ist ein Hardware-Bauteil in unserem internen Netzwerk
ausgefallen. Als dieses Hardware-Bauteil starb, wurde es sehr
schwierig für die Grid-Server herauszufinden, wie man einen für
Menschen lesbaren Domain-Namen, wie z.B. www.secondlife.com, in
IP-Adressen umwandelt, wie z.B. 216.82.8.56.
Alles war immer noch in Betrieb, aber keiner von den Computern konnte
die anderen Computer in unserem Netzwerk finden. Also kamen die
Aktivitäten im Grid zum Stillstand. Das Second Life Grid ist eine
große Ansammlung von Computern und wenn sie sich nicht gegenseitig
finden können, funktionieren Dinge nicht mehr, wie der Wechsel von
Regionen, Teleports, Zugriff auf euer Inventar, das Wechseln von
Outfits und sogar Chatten. Dies hat viele Bewohner zu dem Versuch
veranlasst, sich erneut einzuloggen.
Wir haben uns sehr beeilt, um die defekte Hardware auszutauschen,
aber Hardwaretausch braucht Zeit und in diesem Fall waren es ein paar
Stunden. Es war sehr unheimlich, unsere Grid-Monitore zu beobachten.
An einem Punkt lag die "Logins pro Minute"-Metrik bei "1"
und der "Prozentsatz der erfolgreichen Teleports" lag bei
"2%". Ich hoffe, nie wieder solche Zahlen zu sehen.
Sobald die ausgefallene Hardware ersetzt war, begann das Grid wieder
zum Leben zu erwachen.
Nach dem Hardwarefehler begannen die Anmeldeserver in einen wirklich
ungewöhnlichen Zustand zu fallen. Ein Anmeldeserver sagt
normalerweise dem Resident-Viewer, dass eine Anmeldung nicht
erfolgreich war, aber gleichzeitig gab er dem Grid die Information,
dass der Bewohner sich angemeldet hatte. Diese Fehlinformation in der
Kommunikation machte er sehr schwierig, herauszufinden was los war,
weil es so aussah als ob die Bewohner eingeloggt sind, obwohl sie es
nicht waren. Wir haben schließlich den Grund auf den Anmeldeservern
gefunden, die nach dem Hardwarefehler nicht richtig funktionierten,
und korrigierten das Problem. An diesem Punkt kehrte das Grid wieder
zum normalen Betrieb zurück.
Es gibt eine gute Nachricht für alle! Wir sind derzeit in der Mitte
der Prüfungen für unsere nächste Generation von Anmeldeservern,
die speziell entwickelt wurden, um diese Art von Ausfall besser zu
verkraften. Wir hatten ein paar der zukünftigen Anmeldeserver in den
letzten Tagen im Einsatz, nur um zu sehen, wie sie mit dem
derzeitigen Loginverhalten der Bewohner zurechtkommen. Und sie
hielten sich wirklich gut! Tatsächlich sind wir der Meinung, der
einzige Grund, warum einige Bewohner in der Lage waren, sich während
dieses Ausfalls einzuloggen, lag daran, weil sie Glück hatten und
zufällig einem der zukünftigen Anmeldeserver zugeordnet wurden, die
wir gerade testen.
Der nächste Schritt ist für uns der Abschluss der Tests für die
zukünftigen Anmeldeserver und die Aufnahme aller Login-Anfragen
durch diese Server. (Hoffentlich bald!)
Es tut uns sehr leid wegen der Ausfallzeit heute. Dieser Vorfall
hatte es in sich und die Wiederherstellung war interessant, um es
gelinde auszudrücken. Mein Team nimmt das Befinden und die
Stabilität von Second Life wirklich ernst und wir sind heute
Nachmittag alle ein wenig erschöpft.
Euer freundliches, langohriges Grid-Häschen,
April Linden
Kommentare
Kommentar veröffentlichen