Tabletop Tuesday

Coud-Ausfall

Wenn Ihr wichtigstes SaaS-System plötzlich verschwindet

Willkommen zu einer neuen Ausgabe von "Tabletop Tuesday"! Heute befassen wir uns mit einem Szenario, das die Achillesferse vieler moderner Unternehmen offenlegt: dem großflächigen Ausfall eines Cloud-Anbieters. Was passiert, wenn Ihr zentrales SaaS-System – sei es das ERP, CRM oder Ihre Kollaborationsplattform – für mehrere Stunden einfach nicht erreichbar ist? Sie können das Problem nicht selbst beheben. Sie können nur reagieren.

Dieser Vorfall stellt nicht Ihre Fähigkeit zur technischen Problemlösung auf die Probe, sondern fordert Ihre Business-Continuity-Pläne, Ihre interne und externe Kommunikation und Ihre Widerstandsfähigkeit als Organisation heraus. Sind Sie auf den digitalen Stillstand vorbereitet?

Was ist eine Tabletop-Übung?

Eine Tabletop-Übung ist ein diskussionsbasiertes Training, bei der Teammitglieder die Rollen und Verantwortlichkeiten durchgehen, die sie während eines bestimmten Notfallszenarios hätten. Es geht nicht darum, Systeme live zu testen, sondern darum, Prozesse, Pläne und Kommunikationswege auf den Prüfstand zu stellen.

Phase 1: Die ersten Meldungen

Szenariobeschreibung (Teil 1):

Es ist 10:00 Uhr an einem geschäftigen Vormittag. Plötzlich häufen sich die Anrufe und Tickets beim IT-Helpdesk. Mitarbeiter aus dem Vertrieb, der Logistik und der Buchhaltung melden, dass sie nicht mehr auf das zentrale ERP-System (z.B. SAP S/4HANA Cloud, Microsoft Dynamics 365) zugreifen können. Fehlermeldungen erscheinen, Seiten laden nicht mehr. Die ersten Vermutungen im IT-Team reichen von einem internen Netzwerkproblem bis zu einem DDoS-Angriff. Die Produktivität in Schlüsselabteilungen kommt abrupt zum Erliegen.

Diskussionspunkte und Kernfragen für Ihr Team:

  • Meldung und Triage:
    • Wie werden solche Massenmeldungen effizient erfasst und analysiert? Wer erkennt, dass es sich um ein zusammenhängendes Problem handelt?
    • Welche sind die ersten diagnostischen Schritte des IT-Teams? (Überprüfung der internen Konnektivität, DNS-Auflösung, Firewall-Logs).
  • Informationsbeschaffung:
    • Wie schnell wird die Möglichkeit eines externen Problems beim Cloud-Anbieter in Betracht gezogen?
    • Wer ist dafür verantwortlich, offizielle Statusseiten des Anbieters, Fachmedien oder soziale Netzwerke (wie X/Twitter oder Mastodon) auf Störungsmeldungen zu überprüfen?
  • Erste interne Kommunikation:
    • Gibt es einen Prozess, um schnell eine erste Information an die Belegschaft zu geben (z.B. "Wir untersuchen Probleme mit System X"), um die Flut an Helpdesk-Tickets einzudämmen?

Mögliche Sofortmaßnahmen (Entscheidungen, die im Rahmen der TTX getroffen werden müssen):

  1. Einberufung eines technischen Krisenteams zur schnellen Diagnose.
  2. Systematische Überprüfung der externen Statusseiten und anderer Informationsquellen des Cloud-Providers.
  3. Veröffentlichung einer ersten, kurzen Statusmeldung im Intranet oder per E-Mail-Verteiler, um die Mitarbeiter zu informieren, dass das Problem bekannt ist und untersucht wird.

Phase 2: Die bittere Wahrheit – Es ist ein großer Ausfall

Szenariobeschreibung (Teil 2):

Nach 30 Minuten Verwirrung und hektischer Suche ist es offiziell: Der Cloud-Anbieter hat auf seiner Statusseite einen "Major Service Outage" für die Region "Europe West" bestätigt. Zahlreiche namhafte SaaS-Anwendungen, darunter auch Ihr kritisches ERP-System, sind betroffen. In den IT-Nachrichten wird bereits über den großflächigen Ausfall berichtet. Der Anbieter gibt an, das Problem mit höchster Priorität zu untersuchen, kann aber keine voraussichtliche Lösungszeit (ETA) nennen. Es ist klar: Das ist kein kurzes Problem, und Ihr Unternehmen kann nichts tun, um es zu beschleunigen.

Diskussionspunkte und Kernfragen für Ihr Team:

  • Aktivierung der Notfallpläne:
    • Wer muss sofort über diese Bestätigung informiert werden? (Geschäftsführung, Krisenstab, Leiter der betroffenen Abteilungen).
    • Existiert ein Business Continuity Plan (BCP) für den Ausfall dieses spezifischen SaaS-Systems? Was genau steht darin? Ist er aktuell und bekannt?
    • Wer ist formell dafür verantwortlich, den BCP zu aktivieren und die darin definierten Maßnahmen zu koordinieren?
  • Rollen und Verantwortlichkeiten:
    • Wer wird zum zentralen Ansprechpartner (Incident Manager) für diesen Vorfall ernannt?
    • Wer ist für die kontinuierliche Beobachtung der Kommunikation des Cloud-Anbieters zuständig?
    • Wer verantwortet die interne und wer die externe Kommunikation?

Mögliche Maßnahmen (Entscheidungen, die im Rahmen der TTX getroffen werden müssen):

  1. Formelle Einberufung des Krisenstabs / Business Continuity Teams.
  2. Offizielle Aktivierung des Business Continuity Plans.
  3. Klare Zuweisung der Rollen für die Dauer des Ausfalls (Incident Manager, Kommunikationsverantwortlicher etc.).
  4. Einrichtung eines zentralen Kommunikationskanals für den Krisenstab (der idealerweise nicht von der ausgefallenen Plattform abhängt!).

Phase 3: Leben mit dem Stillstand – Manuelle Prozesse

Szenariobeschreibung (Teil 3):

Der Ausfall dauert nun bereits drei Stunden an. Die Updates des Anbieters bleiben vage: "Unsere Ingenieure arbeiten an der Wiederherstellung der Dienste." Die Auswirkungen auf das Geschäft sind massiv: Neue Aufträge können nicht im System erfasst werden, Lieferungen können nicht kommissioniert werden, Rechnungen können nicht erstellt werden. Die Telefone laufen heiß, die Mitarbeiter sind frustriert und verunsichert.

Diskussionspunkte und Kernfragen für Ihr Team:

  • Umsetzung der Business Continuity Pläne:
    • Welche manuellen oder alternativen Prozesse sind im BCP definiert? (z.B. Auftragsannahme per E-Mail-Formular, Erfassung in freigegebenen Excel-Tabellen, Nutzung von lokalen Daten-Snapshots vom Vortag).
    • Wie praktikabel sind diese manuellen Prozesse? Wie lange kann das Unternehmen so arbeitsfähig bleiben?
    • Wie wird die Integrität der manuell erfassten Daten sichergestellt? Wie werden sie später wieder ins System übertragen?
  • Interne Kommunikation:
    • Wie und in welcher Frequenz werden die Mitarbeiter über den aktuellen Stand informiert? Auch wenn es keine neuen Nachrichten gibt?
    • Wie wird mit der Frustration der Mitarbeiter umgegangen? Welche Anweisungen erhalten die Führungskräfte, um ihre Teams zu leiten?
  • Externe Kommunikation:
    • Müssen Kunden, Partner oder Lieferanten informiert werden? (z.B. über mögliche Lieferverzögerungen, Probleme bei der Auftragsbestätigung).
    • Wer formuliert, genehmigt und versendet diese externe Kommunikation? Gibt es vorbereitete Textbausteine?
  • Finanzielle und operative Auswirkungen:
    • Gibt es eine erste Schätzung des potenziellen finanziellen Schadens pro Stunde Ausfallzeit?

Mögliche Maßnahmen (Entscheidungen, die im Rahmen der TTX getroffen werden müssen):

  1. Anweisung an die betroffenen Abteilungen, die im BCP definierten manuellen Workarounds umzusetzen.
  2. Festlegung eines festen internen Kommunikationsrhythmus (z.B. alle 60 Minuten ein Update im Intranet).
  3. Entscheidung über die Notwendigkeit und den Inhalt der externen Kommunikation.
  4. Beginn der Dokumentation aller manuell durchgeführten Geschäftsvorfälle für die spätere Synchronisation.

Phase 4: Zurück zur Normalität? – Wiederanlauf

Szenariobeschreibung (Teil 4):

Nach quälend langen sechs Stunden meldet der Cloud-Anbieter, dass die Dienste schrittweise wiederhergestellt werden. Langsam wird der Zugriff auf das ERP-System wieder möglich. Die unmittelbare Krise scheint vorbei, doch die eigentliche Arbeit fängt jetzt erst an.

Diskussionspunkte und Kernfragen für Ihr Team:

  • Sicherer Wiederanlauf:
    • Wer gibt offiziell die Freigabe, dass das System wieder voll genutzt werden darf? Gibt es einen Prozess zur Überprüfung der Systemstabilität und Datenkonsistenz?
    • Wie wird der Übergang von den manuellen Prozessen zurück zum digitalen Standardprozess koordiniert?
  • Datensynchronisation:
    • Wie werden die während des Ausfalls manuell erfassten Daten (Aufträge, Kundenanfragen etc.) in das System nachgetragen? Wer ist dafür verantwortlich? Wie hoch ist der Aufwand und das Fehlerrisiko?
  • Lessons Learned:
    • Was hat während des Ausfalls gut funktioniert? (z.B. die interne Kommunikation, der Teamzusammenhalt).
    • Was hat schlecht funktioniert? War der BCP praxistauglich oder nur ein Papiertiger? Fehlten klare Anweisungen?
    • War die Abhängigkeit von einem einzigen Anbieter für ein so kritisches System die richtige strategische Entscheidung?
  • Umgang mit dem Dienstleister:
    • Was steht im Service Level Agreement (SLA) bezüglich Ausfallzeiten und möglicher Gutschriften? Steht die Entschädigung in irgendeinem Verhältnis zum entstandenen Schaden?
    • Wird eine formelle Aufarbeitung (Post-Mortem-Analyse) mit dem Anbieter gefordert?
  • Strategische Anpassungen:
    • Muss die Risikobewertung für Cloud-Dienste neu kalibriert werden?
    • Werden alternative Lösungen oder strategische Änderungen (z.B. Multi-Cloud-Ansätze, hybride Modelle) in Betracht gezogen, um die Resilienz zu erhöhen?

Mögliche Maßnahmen (Entscheidungen, die im Rahmen der TTX getroffen werden müssen):

  1. Koordination des Wiederanlaufs und der Datennacherfassung.
  2. Durchführung eines umfassenden internen "Lessons Learned"-Workshops mit allen Beteiligten.
  3. Analyse und Überarbeitung des Business Continuity Plans basierend auf den gemachten Erfahrungen.
  4. Einleitung eines Gesprächs mit dem Cloud-Anbieter zur Aufarbeitung des Vorfalls und zur Klärung von SLA-Ansprüchen.
  5. Präsentation der Ergebnisse und strategischen Empfehlungen an die Geschäftsführung.

Fazit

Ein Ausfall eines Cloud-Anbieters zeigt auf brutale Weise die Realität des "Shared Responsibility"-Modells: Der Anbieter ist für die Verfügbarkeit der Plattform verantwortlich, aber Sie sind für Ihre Geschäftsprozesse und Ihre Geschäftsfortführung (Business Continuity) verantwortlich. Ein guter Plan, der nicht nur auf dem Papier existiert, sondern auch praktisch geübt wird, ist entscheidend. Ebenso wichtig ist eine proaktive und transparente Kommunikationsstrategie, um Vertrauen bei Mitarbeitern und Kunden zu erhalten, auch wenn man selbst auf eine Lösung wartet.

Wir unterstützen Sie gerne dabei. Ob Awareness-Schulungen, Incident-Response-Pläne oder technische Schutzmaßnahmen – mit unseren Services helfen wir Ihnen, Sicherheitsvorfälle nicht nur besser zu bewältigen, sondern im besten Fall ganz zu vermeiden.