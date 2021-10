Peter Müller

Facebook und seine Töchter waren wegen eines internen Fehlers offline gegangen. Mehr Details werden nun bekannt.

Vergrößern Facebook © A. Nordin / shutterstock.com

Kaum war Facebook offline, kursierten Verschwörungstheorien: Hackerangriff, Zensur oder was auch immer. Die Logik des Marcus Tullius Cicero "Cui bono?" hilft hier nicht weiter, führt im Gegensatz sogar zu Trugschlüssen: Twitter freute sich über mehr Zuspruch, die Neuanmeldungen bei Telegram gingen durch die Decke .

Witzig dagegen wie immer die Meme-Schleudern des Internets, Facebook habe angeblich einen Post von Chuck Norris löschen wollen, was dem so gar nicht gefiel, oder der künftige Ex-Minister für Verkehr und digitale Infrastruktur in Deutschland habe ein Kabel gezogen. Angeblich waren viele Leute am Montagabend überrascht, mit welchen anderen Personen sie zusammenleben oder dass es ja auch noch SMS und Telefon gibt. Katzenbilder konnte man zur Not über Fax versenden.

Aber, weit gefehlt, die Störung kam nicht von außen und war alles andere als absichtlich, um alternative Dienste zu stärken oder an veraltete Technologien zu erinnern. Schon in der Nacht auf Dienstag, als Facebook nach dem fast siebenstündigen Ausfall seiner Services zurückkehrte, hatte die Firma erklärt, selbst das Problem verursacht zu haben . Eine Misskonfiguration hatte vor allem das DNS-System gestört.

Gestern lieferte Facebook ein paar Details nach. Bei der notwendigen Wartung der Infrastruktur war ein Kommando, das die Kapazität des Backbones einschätzen sollte, schiefgegangen und hatte in einer Fehlerkaskade Rechenzentren weltweit offline genommen. Das Tool, das eben genau das verhindern sollte und fehlerhafte Kommandos unterbinden sollte, habe selbst einen Bug gehabt und den fatalen Befehl durchrutschen lassen.

Konkret erklärt Facebook:

Der Datenverkehr zwischen all diesen Rechenanlagen wird von Routern verwaltet, die herausfinden, wohin alle ein- und ausgehenden Daten gesendet werden sollen. Und bei der umfangreichen täglichen Arbeit zur Aufrechterhaltung dieser Infrastruktur müssen unsere Techniker oft einen Teil des Backbone für Wartungsarbeiten abschalten – vielleicht um eine Glasfaserleitung zu reparieren, mehr Kapazität hinzuzufügen oder die Software des Routers selbst zu aktualisieren.

Dies war die Ursache für den gestrigen Ausfall. Während einer dieser routinemäßigen Wartungsarbeiten wurde ein Befehl mit der Absicht erteilt, die Verfügbarkeit der globalen Backbone-Kapazität zu prüfen. Dadurch wurden unbeabsichtigt alle Verbindungen in unserem Backbone-Netzwerk unterbrochen, wodurch die Datenzentren von Facebook weltweit abgeschaltet wurden. Unsere Systeme sind darauf ausgelegt, solche Befehle zu prüfen, um Fehler wie diesen zu vermeiden, aber ein Fehler in diesem Prüfwerkzeug hat den Befehl nicht ordnungsgemäß gestoppt.

Diese Änderung führte zu einer vollständigen Unterbrechung der Serververbindungen zwischen unseren Datenzentren und dem Internet. Und dieser totale Verbindungsverlust verursachte ein zweites Problem, das die Sache noch schlimmer machte.

Eine der Aufgaben unserer kleineren Einrichtungen besteht darin, DNS-Anfragen zu beantworten. DNS ist das Adressbuch des Internets, mit dem die einfachen Webnamen, die wir in den Browser eingeben, in spezifische Server-IP-Adressen übersetzt werden können. Diese Übersetzungsanfragen werden von unseren maßgeblichen Namensservern beantwortet, die selbst bekannte IP-Adressen haben, die wiederum über ein anderes Protokoll, das sogenannte Border-Gateway-Protokoll (BGP), an den Rest des Internets weitergegeben werden.

Um einen zuverlässigen Betrieb zu gewährleisten, deaktivieren unsere DNS-Server diese BGP-Ankündigungen, wenn sie selbst nicht mit unseren Rechenzentren sprechen können, da dies ein Hinweis auf eine ungesunde Netzwerkverbindung ist. Bei dem jüngsten Ausfall wurde das gesamte Backbone außer Betrieb genommen, sodass sich diese Standorte selbst für ungesund erklärten und die BGP-Anzeigen zurückzogen. Das Ergebnis war, dass unsere DNS-Server nicht mehr erreichbar waren, obwohl sie noch in Betrieb waren. Dies machte es für den Rest des Internets unmöglich, unsere Server zu finden.