Technische Probleme oder gar der Ausfall des gesamten IT-Systems können einen Schaden von mehreren Milliarden verursachen. Nicht immer sind die Technologien schuld – auch menschliches Versagen stellt die Verfügbarkeit von Diensten und Produkten infrage. Die Sicherheit und Qualität von Abläufen und Prozessen sollte deshalb von allen Mitarbeiterinnen und Mitarbeitern verinnerlicht werden.
Nicht die frühsommerliche Hitze, sondern ein Supergau brachte Ende Juni 2017 die Microsoft-Techniker zum Schwitzen. Der VoIP- und Messenger-Dienst Skype war in ganz Europa für die 300 Millionen monatlich aktiven Nutzer mehr als einen ganzen Tag lang nur sehr eingeschränkt verfügbar. Zahlreiche User konnten sich nicht einloggen oder berichteten von sehr langsam oder gar nicht versendeten Nachrichten.
Lästig sind diese Probleme für Kunden allemal und für die betroffenen Unternehmen kein Ruhmesblatt. Dass auch Technologieriesen vor Schwachstellen nicht gefeit sind, zeigen mehrere Ausfällevon Google und einzelnen seiner Dienste, die plötzlich für etliche Minuten aus dem Netz verschwanden. Der Verlust für Apple, dessen App Store 2015 für elf Stunden nicht erreichbar war, wurde mit 2,2 Millionen Dollar pro Stunde beziffert. Als zum Jahreswechsel 2016/17 die vom Schweizer Zahlungsabwickler Six Payment Services betreuten Bankomatkassen österreichweit ausfielen, bedeutete das auch für viele kleinere Unternehmen wirtschaftliche Einbußen, die sich an einem Werktag vermutlich noch um einiges schmerzhafter ausgewirkt hätten.
Die finanziellen Auswirkungen des Totalausfalls des Systems der British Airways im Mai 2017 können indessen noch gar nicht abgeschätzt werden. Die Fluggesellschaft ist mit massiven Entschädigungsforderungen der rund 300.000 Passagiere konfrontiert, die mehrstündige Verspätungen hinnehmen und zum Teil die Nacht am Flughafen verbringen mussten. Als ein Stromausfall 2016 die Delta Airlines in den frühen Morgenstunden lahmlegte, verschlang diese vergleichsweise kurze Panne 150 Millionen
Dollar.
Ohne zuverlässige Informations- und Telekommunikationstechnik kann im digitalen Zeitalter kein Unternehmen ruhig schlafen – die Geschäftsfähigkeit und damit die Existenz stehen auf dem Spiel. Doch waren im Vorjahr noch 67 % der Firmen überzeugt, einen hohen digitalen Intelligenzquotienten zu haben, sind inzwischen nur noch rund die Hälfte der von PwC für den »Global Digital IQ Survey 2017« 2.200 Befragten dieser Meinung. In Österreich fällt die Auswertung noch drastischer aus: 74 % der heimischen CFOs schätzen ihren aktuellen Digitalisierungsgrad als niedrig ein.
Vor wenigen Jahren noch wurde »digital« synonym für »IT« verwendet. Begriffe wie Internet of Things, künstliche Intelligenz oder Augmented Reality sind heute in aller Munde, wenn auch Investitionen in diesen Bereichen noch recht bescheiden ausfallen. So stecken die befragten Unternehmen im Schnitt nur knapp 18 % ihres Digitalbudgets in aufstrebende Technologien – nur unwesentlich mehr als vor zehn Jahren. Die deutlich negativere Selbsteinschätzung der Manager geht aber womöglich mit dem wachsenden Bewusstsein einher, was die digitale Transformation an Chancen bietet und zugleich an Einsatz erfordert. Olaf Acker, Leiter Digital Services bei PwC Deutschland, ortet generell eine große Unsicherheit: »Die Entscheidungsträger sehen sich einer immer größeren Auswahl innovativer Technologien gegenüber. Welche davon sich letztlich durchsetzen werden, ist aus heutiger Sicht schwierig zu prognostizieren.« Eines hätten die Unternehmen jedoch sehr wohl verstanden: dass der Faktor Mensch nicht weniger wichtig ist als die Technologie.
An allen Schnittstellen
IT-Sicherheit ist zunächst Chefsache, gilt es doch nach dem »3-P-Prinzip« klare Standards für Prozesse, die technischen Plattformen und bei der Ausbildung des Personals festzulegen. Letztlich sind es aber die Mitarbeiterinnen und Mitarbeiter, die ständige Wachsamkeit und ein Verständnis für die Dringlichkeit von Lösungen in sich tragen müssen. Menschliches Fehlverhalten ist nun einmal die häufigste Ursache für Störungen und Ausfälle. Nur wenn sich jeder den Qualitätsstandards verpflichtet fühlt, kann eine Null-Fehler-Kultur in greifbare Nähe rücken.
T-Systems geht mit gutem Beispiel voran und hat seit 2011 mit Zero Outage ein ganzheitliches Programm zur Qualitätssicherung etabliert, um die höchstmögliche Geschäftsfähigkeit seiner Kunden und Partner zu gewährleisten. »Fehler können passieren. Aber die Schlüsselfrage ist, wie Unternehmen damit umgehen«, sagt Stephan Kasulke, Senior Vice President Quality T-Systems. Zero Outage umfasst alle IT-Schnittstellen zu Kunden und weiteren Lieferanten, die Lieferung von Services und die Durchführung von Projekten. Vor allem aber bezieht das vom TÜV Rheinland zertifizierte Programm auf allen Ebenen das Verhalten der Mitarbeiterinnen und Mitarbeiter ein – vom Top-Management bis zur Basis.
Für die verschiedensten Störungen – ob defekte Systemkomponenten, Netzwerk- oder Stromausfälle – gibt es spezifische Handlungsanweisungen. Die Grundlage bildet ein aktives Risikomanagement: Jeder einzelne Risikocluster wird genau überwacht und die nötigen Maßnahmen stetig optimiert. Das Ziel ist die höchstmögliche Verfügbarkeit von 99,999 %, was einer Ausfallszeit von nur wenigen Minuten pro Jahr entspricht.
Das Grundgerüst von Zero Outage bildet das sogenannte »Incident Management«. Neben einer klar definierten Kommunikationskette tritt je nach Eskalationsstufe auch ein Manager on Duty-Service auf den Plan, die als globale Feuerwehr akute Fehler so schnell und so professionell wie möglich behebt. Dieses »rote Telefon«, besetzt mit einem Vertreter aus dem Senior oder Top-Management mit einem eigens abgestellten Team, ist rund um die Uhr für kritische Incidents erreichbar. Der Manager on Duty koordiniert als verantwortlicher Ansprechpartner alle Prozesse zur Problemlösung. Bei T-Systems sind weltweit rund 140 Führungskräfte in dieser Funktion abwechselnd im Einsatz.
Fokus auf Stabilität
Auf Initiative von T-Systems gründeten im Vorjahr zehn namhafte IT-Unternehmen – darunter Cisco, IBM, Hitachi Datasystems, SAP und Dell EMC – ein Konsortium, das einen neuen Industriestandard für die Verfügbarkeit von IT-Diensten etablieren will. T-Systems stützt sein Programm auf einen eigens erarbeiteten Katalog, der 300 mögliche Risiken, kategorisiert in 40 Cluster, samt entsprechenden Gegenmaßnahmen erfasst. Ein gemeinsamer »Zero Outage Industry Standard« soll nun auch anderen IT-Anbietern ermöglichen, für ihre Dienste eine Verfügbarkeit von 99,999 Prozent zu garantieren. In Folge will der Verband diesbezüglich auch Trainings und Zertifizierungen anbieten.
Beim jüngsten Zero Outage Executive Summit am 14. September in London lag der Fokus zunächst auf der Weiterentwicklung der gemeinsamen Qualitätsstandards für mehr Stabilität und höhere Kundenzufriedenheit. Drei Keynotes beleuchteten das komplexe Thema aus unterschiedlichen Perspektiven. Eireann Leverett, Cyber-Risiko-Spezialist an der Universität Cambridge mit zehnjähriger Hackererfahrung, zeigte anschaulich auf, wie IT-Ausfälle durch Unfälle, Tippfehler, Katastrophen oder durch das Design als solches verursacht werden. »Jedes Netzwerkgerät zwischen Ihren Kunden und Ihren Services ist eine potenzielle Fehlerquelle«, wies Leverett die Teilnehmer des Meetings auf Schwachstellen hin. Das Internet der Dinge sei zwar unter der Prämisse der Verfügbarkeit entstanden – diese ließe sich angesichts des sprunghaften Anstiegs von Cyberattacken aber nicht immer garantieren.
Eindrucksvoll schilderte die norwegische Informatikerin Marie Moe, wie sie durch ihren Herzschrittmacher selbst zur möglichen Zielscheibe für Hacker wurde. »Dieses Szenario klingt mehr nach einem Hollywood-Thriller als nach einer realen Gefahr«, räumte Moe ein. Durch die Drahtlosfunktion ist das Gerät aber von außen steuerbar, die Software ist codiert und deshalb nicht von externen Experten auf Fehler überprüfbar. Zudem bleiben sensible Patientendaten gespeichert, wie Moe feststellen musste, als sie zu Forschungszwecken gebrauchte Geräte über Ebay ankaufte. Die Themen Sicherheit, Datenschutz und rechtliche Haftung bekommen somit bei medizinischen Geräten zusätzliche Brisanz und sind mit persönlichen Schicksalen verknüpft. Nicht nur in eigenem Interesse will die Forscherin ein Bewusstsein für diese Probleme schaffen, zumal IT-Sicherheit für viele Ärzte ein fremdes Terrain ist. Als »unbequeme Patientin« werde sie weiterhin »sehr genaue Fragen stellen«, so Moe – in vier Jahren steht ein Tausch des Herzschrittmachers an, denn die Batterien halten in der Regel nur rund zehn Jahre.
Auf schwerwiegende Folgen von Computerausfällen verwies auch Petra Hauser, CEO und Gründerin des Exponential Business Hub und Leiterin des Vienna Chapter der Singularity University im Silicon Valley: Am Neujahrstag 2017 wurde das Leitsystem der Londoner Einsatzzentrale lahmgelegt; eine Person starb, weil die Rettungskräfte nicht rasch genug koordiniert werden konnten. »Es gibt keinen Bereich, der nicht betroffen ist«, zeigte sich Hauser überzeugt. Aus ihrer Erfahrung mit Start-ups sei Zero Outage in Zeiten agiler Entwicklungen und immer schnellerer Time to Market noch schwieriger zu erreichen.
Angst vor Fehlern
Tatsächlich ruft die strikte Vermeidung von Fehlern trotz des plausiblen Ziels – möglichst geringe Ausfallzeiten für maximale Geschäftsfähigkeit – auch Kritiker auf den Plan. Lars-Peter Linke, langjähriger Partner des Hernstein Instituts für Management und Leadership, gibt etwa zu bedenken, dass die Lust am Ausprobieren, der Mut zum Scheitern damit endgültig zum Erliegen kommen könnte: »Dieses Null-Fehler-Dogma, das falsche Entscheidungen und falsche Handlungen verteufelt, hemmt Innovationen und kann zerstörerisch sein, wenn es zu Angst und Verdrängungsmechanismen führt.« Abgesehen von Fehlern in kritischen Bereichen, die tödlich sein können, würden Kunden nicht Fehlerfreiheit, sondern Problemlösungen erwarten, so Linke: »Niemand erwartet, dass alles perfekt funktioniert und Unvorhersehbarkeiten, Unwägbarkeiten und – ja, auch das – die Tagesform keine Rolle mehr spielen. Was Kunden erwarten dürfen, ist eine Klarheit und Stringenz der Prozesse und Strukturen, die sicherstellen, dass auch dann alles nach Plan läuft, wenn Fehler passieren.«
Design Thinking, die Philosophie der neuen Gründer-Generation, predigt geradezu den Widerspruch zur Null-Fehler-Kultur. Viele Start-ups gehen diese Extrawege noch mit Leidenschaft, kalkuliertem Risiko und dem Bewusstsein, dass späte Fehler weitaus teurer sind als früh gescheiterte Experimente, aus denen sich lernen lässt.
Das Paradoxe: Beide Sichtweisen haben ihre Berechtigung und ihren Platz. Geht es um Technik und Prozesse, hat Fehlervermeidung oberste Priorität. Doch auch durch striktestes Management lassen sich Pannen nicht gänzlich verhindern. Menschen machen Fehler und das ist manchmal gut so. Maschinen und Algorithmen bestimmen immer mehr unser Leben – die menschliche Nicht-Perfektion, die scheinbare Irrationalität so mancher Handlungen eröffnet wertvolle Freiräume.
Kunden einbeziehen
Eine ähnlich kontroverse Diskussion fand auch beim Zero Outage Summit Raum. Für Innovationsexpertin Hauser gibt es zu Design Thinking keine Alternative, wie sie im abschließenden Panel unterstrich: »Keine Branche kann überleben, wenn sie sich nicht an den Kunden orientiert.« Ein Denkanstoß, der von manchen Teilnehmern nur ungern gehört wurde: Nutzer würden die großen Zusammenhänge und Risiken in der Regel nicht erkennen, Unternehmen aber die Verantwortung für sichere IT-Infrastruktur tragen, lautete ein Einwand aus dem Publikum.
Angeheizt durch die spannende Debatte wartete das Arbeitstreffen letztlich mit konkreten Ergebnissen auf: Kunden werden bei der Entwicklung von Standards künftig eingebunden. Der Verein ist ab sofort nicht nur für Provider, sondern auch für Anwenderunternehmen geöffnet. Durch diese Zusammenarbeit sollen noch praxisorientiertere Richtlinien und intensivere Partnerschaften entstehen.