Berichtetes Authentifizierungsproblem führt zu mehreren Serviceausfällen beim Cloud-Giganten und verursacht weltweite Produktivitätsunterbrechungen.

Haben Sie am Montag im Schlafanzug geschwitzt, als Sie feststellten, dass nicht nur Ihr Google Nest-Thermostat ausgefallen war - fast jeder Dienst, den Google anbietet, war in der Tat ausgefallen? Sie waren nicht allein, denn IT-Administratoren und Anwender auf der ganzen Welt wurden an die Gefahr erinnert, sich zu sehr auf einen einzigen IT-Dienstleister zu verlassen.

Während des Vorfalls zeigte das Google Workspace Status Dashboard an, dass Gmail, Google Calendar, Docs und eine Reihe anderer Dienste Probleme hatten, die eine Authentifizierung der Nutzer verhinderten. DownDetector zeigte 49.681 Spitzenberichte während des Ausfalls an. Ein Google-Sprecher sagte später, dass es "einen Ausfall des Authentifizierungssystems für ca. 45 Minuten aufgrund eines internen Speicherkontingentproblems" gegeben habe.

Selbst bei einer relativ kurzen Ausfallzeit können die daraus resultierenden Störungen beträchtlich sein - vor allem, wenn Millionen von Benutzern auf der ganzen Welt mehr denn je auf diese Tools angewiesen sind. Das Wall Street Journal berichtete wie die Wayne-Westland Community Schools in Westland, Michigan, ihren rund 9.800 Schülern nach einem gestörten Vormittag den Tag frei gaben. "Das ist der neue Schneetag", sagte die Sprecherin der Schule zu dem Reporter, der seine Geschichte auch per Telefon einreichen musste, während Google ausgefallen war.

Glücklicherweise sind solche großflächigen Ausfälle in Googles Systemen selten, aber sicherlich nicht folgenlos. Google Workspace wurde im Oktober eingeführt, ersetzte die Marke G Suite und wurde als "alles, was Sie brauchen, um alles zu erledigen, jetzt an einem Ort" angepriesen. Google Workspace umfasst nun Gmail, Kalender, Drive, Docs, Sheets, Slides, Meet, Chat - alles enger integriert als je zuvor.

Einzelne Fehlerstelle

Leider kann mit dieser engen Kopplung und gemeinsamen Plattform auch ein erhöhtes Risiko eines kaskadierenden Ausfalls einhergehen.

Authentifizierungsdienste sollten für Business-Continuity-Experten ein bekannter potenzieller Fehlerpunkt sein, und es ist nicht das erste Mal, dass diese Art von Dienstausfall zu weitreichenden Unterbrechungen führt. Bereits im September wurde Microsoft von langwierigen Serviceproblemen geplagt, die mit einem Teil seines Authentifizierungssystems, Azure Active Directory, zusammenhingen und dazu führten, dass ein Teil der Benutzer von mehreren Cloud-basierten Diensten von Microsoft ausgeschlossen wurde. Weitere Microsoft-Ausfälle im Oktober, November und Dezember zeigten erneut das wachsende Produktivitätsproblem, das aus der versteckten Komplexität der Cloud-Continuity-Planung resultiert.

Diese Ausfälle können eine erhebliche Herausforderung für die Produktivität der Endbenutzer, die Sicherheit und in einigen Fällen auch die Compliance darstellen. Am Beispiel von E-Mail haben sich einige Unternehmen an Google gewandt, um eine kostengünstige Alternative zu Microsoft Exchange Online - verfügbar mit dem Microsoft 365 Service - zu erhalten. Anstatt einen eigenen Exchange-Server in einer physischen oder virtuellen Umgebung zu unterhalten, vertrauen sie ihrem Cloud-Anbieter - in diesem Fall Google - die Verwaltung ihres E-Mail-Dienstes an.

Wunschdenken

Das Problem ist, dass im Wettlauf mit der Cloud immer mehr Unternehmen, Verbraucher - sogar Regierungen - jahrzehntelange IT-Best-Practice aufgeben und die Bereitstellung von Service-Redundanz überspringen. Jahrzehntelang beinhaltete die typische Praxis für kritische Geschäftssysteme immer einen Plan B. Zwei Telefonleitungen, zwei unabhängige Internet-Service-Provider, zwei Datenarchive, ein Backup-Generator; das "Zwei-Fallschirme"-Denken, um das Leben kritischer Geschäftsfunktionen zu erhalten.

Aber dies sind natürlich herausfordernde Zeiten. Digitale Transformationsprojekte wurden aufgrund der COVID-19-Pandemie beschleunigt und fast alle Organisationen mussten neu überdenken, wie sie intern und mit Kunden, Partnern - oder sogar Studenten, wie im obigen Beispiel - zusammenarbeiten. Und so stehen IT-Teams anekdotisch gesehen unter erheblichem zeitlichen und finanziellen Druck, um neue Tools zum Laufen zu bringen, oft mit begrenzter Aufmerksamkeit - zumindest im Vorfeld - für traditionelle Disaster-Recovery- und sogar Sicherheitsüberlegungen.

Resilience Ziele

Cloud-Service-Provider bauen zwar einige eigene interne Redundanzen ein - konzentrieren sich dabei aber oft auf die Datenintegrität mit einem Recovery Point Objective (RPO) von Null (d. h. kein Datenverlust bei einem Ausfall). Doch bei der Aufrechterhaltung der Verfügbarkeit eines Dienstes klaffen große Lücken, die bisher kein einziger Anbieter gelöst hat. Während die Homogenität der Dienste große wirtschaftliche Vorteile mit sich bringt, birgt sie das Risiko weitreichender Ausfallzeiten, wenn Systeme oder gemeinsam genutzte Dienste beeinträchtigt werden oder ausfallen.

Hier kommt die andere kritische Größe, das Recovery Time Objective (RTO), ins Spiel. Jede Organisation muss dies für jeden von ihr genutzten Cloud-Service berechnen. Die RTO ist die Zeit und der Service-Level, innerhalb derer ein Geschäftsprozess nach einer Katastrophe wiederhergestellt werden muss, um inakzeptable Auswirkungen durch eine Unterbrechung der Verfügbarkeit zu vermeiden.

Google selbst bietet eine beeindruckende Abhandlung über die Disaster-Recovery-Architektur , ist aber nicht in der Lage, Ihrer Organisation einen immer verfügbaren Dienst zur Verfügung zu stellen. Und genau dasselbe gilt für Microsoft, AWS - sogar Mimecast. Letzteres bietet einen E-Mail-Kontinuitätsdienst an, der eingesetzt werden kann, wenn Ihr primärer E-Mail-Dienst ausfällt. Sie können kein eigenes YouTube erstellen, aber Sie könnten sicherstellen, dass Sie eine Sicherungskopie Ihrer Schulungsvideos haben, die dort gehostet werden. Ebenso sind Sie in der Lage, die Redundanz für Ihre kritischen Geschäftsfunktionen zu besitzen, wie z. B. die Möglichkeit, virtuelle Meetings und Anrufe durchzuführen und E-Mails zu versenden.

Nur Ihr Unternehmen kann das erforderliche Maß an Ausfallsicherheit für jeden Geschäftsdienst oder jede IT-Anwendung, auf die Sie angewiesen sind, bestimmen. Aber jeder IT- und Risikomanagement-Experte hat die Aufgabe, diese Risiken zu bewerten und im Vorfeld des nächsten großen Ausfallereignisses entsprechende Pläne zu erstellen.

Keine Organisation ist vor Fehlschlägen gefeit, und deshalb verwenden wir zwei Fallschirme - und, wo es angebracht ist, zwei Wolken.

Sie wollen noch mehr Artikel wie diesen? Abonnieren Sie unseren Blog.

Erhalten Sie alle aktuellen Nachrichten, Tipps und Artikel direkt in Ihren Posteingang

Das könnte Ihnen auch gefallen:

Ausfall von Amazon Web Services: Wer ist verantwortlich für den Ausfall Ihrer Organisation...

Der jüngste AWS-Ausfall erinnert stark an ...

Der jüngste AWS-Ausfall ist eine deutliche Erinnerung an die Risiken, die... Mehr lesen >

Matthew Gardiner

von Matthew Gardiner

Principal Security Strategist

Verfasst am 1. Dezember, 2020

Warum die Rechtsabteilung stärker auf E-Discovery drängt

Mehrere Entwicklungen im Jahr 2020 haben ...

Mehrere Entwicklungen im Jahr 2020 haben die Inhouse-E-Discovery ... Read More >

Allan Halcrow

von Allan Halcrow

Mitwirkender Verfasser

Veröffentlicht am 14. Dezember 2020

FireEye-Angriff legt die Messlatte für Cyber-Resilienz für jedermann höher

Bedrohungsakteure stehlen 'white hat&rsq...

Bedrohungsakteure stehlen "White Hat"-Tools, aber FireE... Mehr lesen >

Mike Azzara

by Mike Azzara

Mitwirkender Verfasser

Veröffentlicht am 10. Dezember 2020