Am gestrigen Montag kam es zu einer Art Internet-GAU (Greatest Accident to Expect): Ein Fehler in der Server-Infrastruktur von Amazon legte zahlreiche abhängige Internetdienste lahm. Betroffen davon waren nicht nur Amazon-eigene Angebote wie Prime, Music und Co., sondern auch Anbieter, die Kapazitäten in Amazons Cloud gebucht hatten. Gegen Mitternacht meldete Amazon eine Rückkehr zur Normalität.
Lesen Sie mehr nach der Anzeige
Amazon hat das Problem in der Statusaktualisierung der Cloud-Dienste als gelöst markiert.
(Bild: Screenshot heise media)
In dem Eintrag auf der Cloud-Status-Website von Amazon erklärt das Unternehmen nun die Ursachen des Ausfalls und deren Lösung. Die Zusammenfassung im Eintrag ist auf 0:53 Uhr mitteleuropäischer Sommerzeit am 21. Oktober 2025 datiert. Demnach kam es zwischen 8:49 Uhr Ortszeit und 11:24 Uhr am 20. Oktober 2025 zu „erhöhten Fehlerraten und Latenzen bei den AWS-Diensten in der US-Region EAST 1“. Darüber hinaus traten in diesem Zeitraum Probleme bei Diensten und Funktionen auf, die von US-EAST-1-Endpunkten abhängen, wie z. B. IAM und die DynamoDB Global Tables.
„Gegen 9:26 Uhr konnten wir die Ursache des Vorfalls in DNS-Auflösungsproblemen in den regionalen Endpunkten der DynamoDB-Dienste identifizieren. Nach der Lösung der DynamoDB-DNS-Probleme gegen 11:24 Uhr begannen sich die Dienste zu erholen, es kam jedoch anschließend zu Störungen bei den internen EC2-Subsystemen, die für den Start von EC2-Instanzen verantwortlich waren, aufgrund ihrer Abhängigkeit von DynamoDB“, erklärt Amazon weiter.
Probleme bei der Problemlösung
Während die Ingenieure von Amazon an den Startproblemen der EC2-Instanzen arbeiteten, waren auch die Zustandsprüfungen der Netzwerk-Lastausgleichsfunktionen (Netzwerkmonitore) betroffen, was zu weiteren Verbindungsunterbrechungen bei mehreren Diensten wie Lambda, DynamoDB und CloudWatch führte. Gegen 18:38 Uhr hatten sie die Gesundheitsprüfungen des Load Balancers wieder unter Kontrolle
„Im Rahmen der Bemühungen zur Wiederherstellung von Diensten haben wir einige Vorgänge vorübergehend verlangsamt, wie z. B. das Starten von EC2-Instanzen, die Verarbeitung von SQS-Warteschlangen über Lambda Event Source Mappings und asynchrone Lambda-Aufrufe. Im weiteren Verlauf haben wir die Verlangsamung verringert und parallel an Netzwerkkonnektivitätsproblemen gearbeitet, bis sich die Dienste vollständig erholt haben. Am 21. Oktober um 00:01 Uhr kehrten „alle AWS-Dienste in den Normalbetrieb zurück“, fährt Amazon fort technisches Team.
Einige Dienste wie AWS Config, Redshift und Connect haben immer noch einen Rückstand an Nachrichten, die sie in den kommenden Stunden verarbeiten werden. Amazon kündigt einen detaillierteren Bericht zur Nachbesprechung der Veranstaltung an.
Lesen Sie mehr nach der Anzeige
(dmk)