REPORT Mehrwert für Manager - Performance-Testing: Unerwartete Ereignisse einkalkulieren

Der Streaming-Anbieter Netflix ist für seine stabile Plattform und ein flüssiges Video-Erlebnis bekannt. Doch selbst die Großen kommen einmal ins Stolpern: Als Millionen von Fans die Live-Übertragung des Boxkampfs von Jake Paul gegen Mike Tyson sehen wollten, kam es in entscheidenden Momenten zu Rucklern, Verzögerungen und App-Abstürzen. Ganz ähnlich erging es der Plattform Ticketmaster beim Vorverkauf für die US-Tournee von Taylor Swift. Weil man den Ansturm unterschätzt hatte, gingen die Server in die Knie. Schließlich musste das Unternehmen den Ticketverkauf sogar ganz einstellen. Solche Vorfälle zeigen: Plötzliche Lastspitzen können jeden treffen. Während manche Events vielleicht noch vorhersehbar sind, treten andere ganz unerwartet auf. So fiel zum Beispiel der Service des Online-Gaming-Anbieter Wizards of the Coast aus, weil zu viele Kunden gleichzeitig ihr Abonnement kündigen wollten. Der Grund: Jemand hatte eine geplante Lizenzänderung geleakt und die Community dazu aufgefordert, den Anbieter zu wechseln.

Die Belastungsgrenzen austesten

Wenn Server zusammenbrechen, Applikationen abstürzen und Dienste nicht mehr erreichbar sind, wirkt sich das nicht nur unmittelbar auf die Verkaufszahlen aus, sondern schadet auch der Reputation. Denn frustrierte Kunden wechseln zur Konkurrenz und sind das denkbar schlechteste Marketing. Doch Unternehmen können etwas tun, um solche Risiken zu minimieren. Die zwei wichtigsten Fragen sind: Wie können wir unser Performance-Testing verbessern? Und was machen wir, wenn trotzdem unerwarteten Lastspitzen auftreten? Die meisten Unternehmen führen heute Performance-Tests durch. Diese dienen dazu, die Geschwindigkeit, Robustheit und Zuverlässigkeit einer Anwendung unter einer bestimmten Arbeitslast sicherzustellen. Häufig fehlen aber Stress-Tests, die eine Applikation wirklich an ihre Grenzen treiben und bis zum Absturz führen. Solche Tests sind wichtig, um zu monitoren, wie sich eine Anwendung unter Spitzenlast verhält und welche Symptome sie zeigt, bevor es zum Ausfall kommt. Denn nur wenn man die Anzeichen erkennt, kann man rechtzeitig gegensteuern.

Eine Umleitung ist besser als eine Fehlermeldung

Das führt zu Schritt zwei: den lastbedingten Ausfall vermeiden. Eine Notfallmaßnahme besteht darin, übermäßigen Traffic auf eine statische Seite umzuleiten. Anwender erhalten dann zum Beispiel die Nachricht „Aufgrund eines unerwartet hohen Datenaufkommens ist die Website zu diesem Zeitpunkt nicht verfügbar. Bitte versuchen Sie es später noch einmal.“ Das ist in jedem Fall besser als eine Fehlerseite mit dem Code „502 Bad Gateway“. Auf Basis der im Stress-Test ermittelten Parameter können Unternehmen Grenzwerte definieren, ab wann eine Umleitung erfolgen soll. Dabei empfiehlt es sich, lieber ein bisschen Puffer einzukalkulieren und die Leitplanken großzügig abzustecken, lange bevor das System gefährdet ist. So wie man einen Zaun nicht direkt am Abgrund, sondern mit etwas Abstand errichtet, um Spaziergänger ausreichend zu schützen.

Warum setzen viele Unternehmen diese Maßnahmen noch nicht um?

Was in der Theorie einfach klingt, hat in der Praxis einen Haken. Denn Stresstests, die bis an die Belastungsgrenze gehen, verursachen in der Regel zusätzliche Kosten für Infrastruktur und Nutzungsraten. Für viele Unternehmen lohnt sich das nicht, da das Risiko einer extremen Belastungssituation verschwindend gering scheint. Dazu kommt, dass das Anbringen von Leitplanken die Betriebskosten erhöhen kann. Denn wenn man die maximale CPU-Auslastung der Server auf 80 Prozent beschränkt, steigt womöglich die Zahl der benötigten Geräte. Am Ende geht es darum, Risiken, Kosten und Nutzen abzuwägen. Kann das Unternehmen einen Ausfall in Kauf nehmen oder ist die Applikation geschäftskritisch? Was wäre teurer: ein Absturz oder die Präventionsmaßnahmen? Mit den richtigen Tools lässt sich Performance-Testing kosteneffizient in DevOps-Prozesse integrieren. Eine Lösung wie Tricentis NeoLoad kann zum Beispiel reale Bedingungen simulieren und komplexe Szenarien automatisiert testen.

Je früher, desto besser

Um eine gute Nutzererfahrung sicherzustellen, sollten Unternehmen Performance-Engineering frühzeitig in die Entwicklung integrieren. Denn je eher man Probleme erkennt, desto kostengünstiger lassen sie sich beheben. Dabei ist es wichtig, eng mit den Business-Stakeholdern zusammenzuarbeiten und zu identifizieren, welche Leitplanken für einen reibungslosen Betrieb gelten. Kontinuierliches Monitoring und Testautomatisierung schaffen die Basis, um die richtigen Entscheidungen zu treffen und Aufwand zu minimieren. So können Unternehmen bereits im Vorfeld Risiken mindern und selbst unvorhergesehene Lastspitzen abfedern.

Über Bryan Cole
Bryan Cole ist Director of Customer Engineering for NeoLoad bei Tricentis und verfügt über mehr als 20 Jahre Erfahrung im Bereich Performance-Testing und -Engineering. Während seiner beruflichen Laufbahn war er in verschiedenen Funktionen tätig, unter anderem als Solution Architect, Enterprise Architect und Chief Technologist. Er setzt sich für einen strukturierten und disziplinübergreifenden Ansatz im Performance Engineering ein, der alle Phasen des Softwareentwicklungsprozesses berücksichtigt.