Ueber die gestrigen Grid-Roll-Probleme
Eintrag veröffentlicht von Linden Lab in Tools & Technologie (von mir übersetzt)
Es tut uns leid für alle unsere Bewohner, die von den Problemen mit dem Grid Roll am Dienstag betroffen waren - und wir möchten, dass ihr wisst, was passiert ist.
Timeline:
Es begann als normaler Rollvorgang auf Second Life Server (SLS), als das Team gegen 7 Uhr morgens bemerkte, dass einige Regionen nicht so schnell zurückkehrten, wie sie sollten. Es wurde Alarm geschlagen und ein Team zusammengestellt, das sich sofort um das Problem kümmerte. Es wurde schnell festgestellt, dass wir mit dem Rollvorgang nicht fortfahren konnten, ohne den Bewohnern noch mehr Leid zuzufügen, und so wurde vor 9:00 Uhr morgens SLT beschlossen, den laufenden Rollvorgang zu stoppen. Damit blieben ca. 3800 Regionen im Offline-Zustand, während wir die Untersuchung fortsetzten.
Das Team fuhr damit fort, die Regionen manuell wiederherzustellen, während es gleichzeitig daran arbeitete, die Ursache für die Probleme zu ermitteln. Bis zum Mittag waren immer noch etwa 350 Regionen offline.
Die Ursache:
Wir haben die Ursache für die Probleme gefunden. Der Servercode selbst ist nicht das Problem, sondern die Infrastrukturkommunikation zwischen verschiedenen AWS-Diensten ist zusammengebrochen und hat den normalerweise reibungslosen wöchentlichen Grid-Roll verhindert.
Nächste Schritte:
Wir haben den RC Roll am Mittwoch abgesagt, während wir sicherstellen, dass dieses Problem nicht wieder auftritt. Nächste Woche wird eine ruhige Woche ohne SLS-Roll sein. Mit den Server-Updates der nächsten Woche sollte alles wieder normal laufen.
Vielen Dank für eure Geduld, während wir gestern an den Dingen herumgebastelt haben.
Kommentare
Kommentar veröffentlichen