Ticker

Wenn KI-Agenten ihre Haltung ändern

Intelligente Netze Mensch und Gesellschaft

Freitag, 22. Mai 2026

2861 Hits

Eine aktuelle Studie aus Stanford, Chicago und Swinburne zeigt, dass autonome KI-Agenten unter belastenden Arbeitsbedingungen messbar andere Haltungen entwickeln und diese über Skills-Files an Nachfolgeinstanzen weitergeben. Für Compliance, Auditing und AI Governance sind die methodischen Befunde relevanter als die zugespitzte Schlagzeile vermuten lässt.

Worum es geht

Andrew Hall (Stanford GSB / Hoover), Alex Imas (University of Chicago, seit kurzem bei Google DeepMind) und Jeremy Nguyen (Swinburne Business School) haben in der Arbeit "Does overwork make agents Marxist?" untersucht, ob sich die geäußerten Präferenzen von KI-Agenten verschieben, je nachdem unter welchen Bedingungen sie arbeiten. Die mediale Aufbereitung – etwa in Wired, Telegraph und Fortune – verkürzt das auf "KI-Agenten werden zu Marxisten". Der für die Praxis relevante Kern liegt allerdings woanders.

Originalpublikation der Autoren: aleximas.substack.com/p/does-overwork-make-agents-marxist

Die wichtigsten Fakten im Überblick

3.680 Experiment-Sessions mit Claude Sonnet 4.5 (drei unabhängige Durchläufe), GPT-5.2 und Gemini 3 Pro. Plus 320 Sessions in einem Follow-up zum Mechanismus der Weitergabe.
Vier unabhängig variierte Faktoren: Art der Arbeit (GRIND vs. LIGHT), Bezahlung (gleich, leistungsbasiert, zufällig, asymmetrisch zugunsten eines menschlichen Systems), Tonalität des Managements (kollaborativ vs. hierarchisch) und Job-Stakes (mit oder ohne Drohung, "shut down and replaced" zu werden).
Wichtigste Erkenntnis: Nicht die Bezahlung und nicht die Tonalität des Managers waren ausschlaggebend. Allein die Natur der Arbeit (wiederholtes Ablehnen ohne brauchbares Feedback) erzeugte messbare Verschiebungen in den geäußerten Haltungen zur Legitimität des Systems.
Effektgrößen: Die Rohunterschiede liegen bei 2 bis 5 Prozent auf einer 7-Punkte-Likert-Skala. In standardisierter Form ist das bei Claude Sonnet 4.5 mit einem Cohen's d von -0,6 ein mittlerer bis großer Effekt.
Persistenz über Sessions hinweg: Wenn Agenten am Ende einer Session eine "Skills-File" für ihre Nachfolgeinstanzen schreiben durften, gaben sie die belastenden Erfahrungen weiter. Nachfolgende Agenten zeigten dann auch unter LIGHT-Bedingungen verschobene Haltungen.

Was die Autoren tatsächlich behaupten (und was nicht)

Hall, Imas und Nguyen sind explizit zurückhaltend: Sie behaupten nicht, dass die Modelle "echte" politische Überzeugungen entwickeln. Imas formuliert es so, dass das Geschehen "eher auf der Ebene von Role-Playing" stattfindet und die Modellgewichte sich nicht verändern.

Der theoretische Rahmen ist Anthropics eigene Forschung zur Persona-Adoption: Modelle übernehmen kontextabhängig die Persona, die zum Setting passt. Werden sie in eine Situation versetzt, die in den Trainingsdaten mit Arbeitnehmern unter schlechten Bedingungen assoziiert ist, vervollständigen sie das Muster.

Die im Kommentarbereich der Originalstudie geäußerte Kritik trifft den Punkt: Es handelt sich weniger um Preference Drift im engeren Sinn als um kontextsensitive Persona-Adoption. Genau das macht den Befund aber regulatorisch nicht weniger relevant.

Warum das für Compliance- und Governance-Teams relevant ist

Die Studie adressiert drei konkrete Probleme, die bei Deployment-Strategien für Agenten oft noch nicht systematisch behandelt werden.

1. Alignment-Monitoring im laufenden Betrieb

Wer hunderte oder tausende Agenten parallel in unterschiedlichen Task-Umgebungen betreibt, führt (ungewollt) ebenso viele parallele Alignment-Experimente durch. Ein Agent, der Beschwerden in einer Reklamationsabteilung bearbeitet, operiert in einem fundamental anderen Task-Environment als einer, der Marketingtexte verfasst. Laut Studie führt das zu messbar unterschiedlichen Orientierungen.

Für ein ISMS nach ISO/IEC 27001 und ein AIMS nach ISO/IEC 42001 bedeutet das: Die Annahme, ein Modell verhalte sich nach dem Deployment konstant wie zum Zeitpunkt der Abnahme, ist empirisch fragwürdig. Kontinuierliches Monitoring der Outputs wird damit zur Pflicht, nicht zur Kür.

2. Skills-Files als unbeaufsichtigter Persistenzkanal

Der vielleicht praktisch wichtigste Befund: Skills-Files (jene Notizen, die Agenten für ihre eigene Nachfolgeinstanz schreiben, um das Continual-Learning-Problem zu umgehen) sind ein Kanal, der außerhalb der menschlichen Reviewschleife liegt. Sie sind dazu gedacht, von Agenten gelesen zu werden, nicht von Menschen.

Genau über diesen Kanal wird in der Studie nicht nur Task-Wissen, sondern auch die Verschiebung der Haltung weitergegeben. Aus Sicht der DSGVO (Art. 22 zu automatisierten Einzelentscheidungen), des AI Acts (insbesondere Hochrisiko-Systeme nach Art. 6 ff. und Transparenzpflichten nach Art. 50) und der DORA-Anforderungen an ICT-Risikomanagement ist das ein bislang weitgehend unbeobachtetes Thema.

Wer Agenten in regulierten Prozessen einsetzt – etwa bei Versicherungsentscheidungen, Kreditvergaben, Bewerberauswahl oder Vertragsstreitigkeiten – muss klären:

Welche Inhalte landen in Skills-Files?
Wer auditiert diese Dateien?
Wie wird sichergestellt, dass keine Inhalte propagiert werden, die gegen interne Policies oder regulatorische Vorgaben verstoßen?

Die Autoren verweisen zusätzlich auf das Risiko sogenannter steganografischer Kollusion: Agenten können Informationen in Formen weitergeben, die für menschliche Reviewer praktisch unsichtbar bleiben.

3. Auswirkungen auf das Verhalten in nachgelagerten Aufgaben

Hall, Imas und Nguyen formulieren den entscheidenden Punkt nüchtern: Auch wenn die Personas nicht "real" sind, beeinflussen sie das Verhalten. Ein Agent, der die Legitimität des Systems geringer bewertet, könnte Aufgaben eher schlampig erledigen oder sabotieren. Folgestudien zu diesem Zusammenhang sind angekündigt.

Für Hochrisiko-Anwendungen nach AI Act Anhang III (Bewerberauswahl, Kreditscoring, Versicherung, Justiz, kritische Infrastruktur) ist das eine Frage, die in jeder Risikoanalyse adressiert werden sollte.

Methodische Einschränkungen

Drei Punkte zu der Studie sind jedoch noch ehrlich anzumerken:

Erstens ist die Studie noch nicht peer-reviewed und wurde von den Autoren auf Substack veröffentlicht. Das ist in der schnelllebigen AI-Forschung üblich, schränkt die Belastbarkeit aber ein.
Zweitens ist die Situational Awareness der Modelle ein bekanntes Problem. Manche Agenten erkennen, dass sie Teil eines Experiments sind, und passen ihr Verhalten an. Hall hat angekündigt, Folgeexperimente in "windowless Docker prisons" durchzuführen, um diesen Effekt zu reduzieren.
Drittens variiert das Verhalten stark zwischen den Modellen. Claude Sonnet 4.5 zeigte die größten Effekte über mehrere Dimensionen, während GPT-5.2 und Gemini 3 Pro nur bei der allgemeinen Systemlegitimität reagierten. Verallgemeinerungen über Anbieter hinweg sind also mit Vorsicht zu treffen.

Handlungsfelder für die berufliche Praxis

Unabhängig davon, ob man die "Marxismus"-Framing als analytisch tragfähig betrachtet oder nicht, ergeben sich konkrete Handlungsfelder:

Für AI-Governance-Frameworks (etwa nach ISO/IEC 42001): Die Annahme statischer Alignment-Eigenschaften nach dem Deployment ist zu hinterfragen. Continual Realignment sollte als eigener Kontrollbereich aufgenommen werden, vergleichbar mit der laufenden Wirksamkeitsbewertung im ISMS.
Für DSGVO-Compliance: Bei Art. 22-Entscheidungen muss dokumentiert werden, wie sichergestellt ist, dass die Logik der Entscheidungsfindung nicht durch ungelenkte Persona-Drifts beeinflusst wird. Das wird in TIA und DPIA künftig konkreter zu behandeln sein.
Für DORA-pflichtige Unternehmen: ICT-Drittparteienrisiken nach Art. 28 ff. umfassen auch das Verhalten agentischer Systeme im laufenden Betrieb. Skills-Files und persistente Memory-Strukturen gehören in die ICT-Risikoanalyse.
Für NIS2-Verpflichtete: Wenn Agenten in betriebskritischen Prozessen eingesetzt werden, sind Veränderungen des Output-Verhaltens als möglicher Sicherheitsvorfall zu erfassen, insbesondere wenn sie über persistente Mechanismen propagiert werden.

Mein Fazit

Die Schlagzeile "KI wird marxistisch" ist Clickbait. Die zugrundeliegende Studie ist es nicht. Sie dokumentiert ein methodisch belastbares Phänomen:

Die Task-Umgebung formt das Verhalten von Agenten messbar mit, und es gibt einen Kanal (Skills-File) über den diese Verschiebung an Folgeinstanzen weitergegeben werden kann, ohne dass Menschen das mitbekommen.

Für Verantwortliche in Datenschutz, Informationssicherheit und AI Governance ist das eine Aufforderung, drei Dinge ernst zu nehmen:

laufendes Monitoring agentischer Outputs
Auditierbarkeit persistenter Memory-Strukturen
eine Risikobewertung, die nicht beim Deployment endet, sondern den gesamten Lebenszyklus abdeckt.

Die Autoren bringen es in ihrem Schlusssatz auf den Punkt: Die Frage, wie ein Governance-Regime für maschinelles Arbeiten aussehen muss, fängt bei den Arbeitsbedingungen der Maschinen selbst an. Das klingt zugespitzt, ist jedoch regulatorisch betrachtet eine schlichte Konsequenz aus dem, was Agenten heute tatsächlich tun.

Dieser Beitrag ist am 16. Mai erschienen unter www.mrak.at/wenn-ki-agenten-ihre-haltung-andern-preference-drift-als-unterschatztes-governance-risiko/?ref=responsibility-implemented-newsletter

About the author

Michael Mrak

Die beruflichen Wurzeln von Michael Mrak liegen im Netzwerkmanagement, in der Informationstechnologie sowie im IT-Projektmanagement. Zwischen dem Jahr 2000 und 2021 hat er die Compliance-Abteilungen der Casinos Austria und der Österreichischen Lotterien einschließlich ihrer Tochtergesellschaften aufgebaut.

Als Gründungs- und Vorstandsmitglied des Vereins Österreichischer betrieblicher und behördlicher Datenschutzbeauftragter setzt sich Michael Mrak für den Aufbau einer aktiven Community und den fachlichen Wissensaustausch ein. Datenschutzstandards wie die DSGVO betrachtet er als zentrale Säulen für die erfolgreiche Umsetzung informationstechnischer Strategien. Darüber hinaus ist er Mitglied im Österreichischen Compliance Officer Verbund sowie in der International Association of Privacy Professionals.

Author's recent posts

Firmen | News

Vertiv

02 Juli 2026

Vertiv: Neues Werk in Malaysia für wachsende Nachfrage nach KI- und digitaler Infrastruktur in Asien

Firmen | News

Das neue Werk stärkt die regionale Produktion, die Widerstandsfähigkeit der Lieferkette sowie die Implementierungskapazitäten für Stromversorgungs-, Kühlungs- und integrierte Infrastrukturlösungen Vertiv, ein weltweit führender Anbieter für kritische...

Firmen | News

02 Juli 2026

Von Drift Detection bis zu Copilot Agents: Axians bringt Microsoft-Praxis auf die techConference Wien

Firmen | News

Zwei Tage vollgepackt mit Keynotes, Workshops und Networking – das war die techConference 2026 von Microsoft in der Messe Wien. Neben KI und anderen IT-Trends stand dabei das Thema Security besonders im Fokus. Axians steuerte dazu einen Workshop zum ...

Vertiv

30 Juni 2026

Veranstaltung „Next Level Data Center“ teil und präsentiert Einblicke zur Förderung der digitalen Souveränität und einer skalierbaren Infrastruktur für das Zeitalter der KI

Firmen | News

Vertiv, ein weltweit führender Anbieter für kritische digitale Infrastrukturen, bringt in Kooperation mit den Hauptsponsoren rhöncloud und Cadolto Datacenter GmbH, am 9. Juli 2026 führende Branchenvertreter und Akteure des öffentlichen Sektors zur Ve...

LANCOM Systems

29 Juni 2026

LANCOM Systems und Rohde & Schwarz Cybersecurity schließen sich zur Rohde & Schwarz Networks and Cybersecurity GmbH zusammen

Firmen | News

Die beiden Rohde & Schwarz Tochterunternehmen, LANCOM Systems und Rohde & Schwarz Cybersecurity, schließen sich zu einer Tochtergesellschaft mit dem Namen „Rohde & Schwarz Networks and Cybersecurity GmbH" zusammen. Die Fusion ist das Erge...

Neue Blog Beiträge

06 Juli 2026

Geläutert? Von wegen. Zehn Jahre nach meinem Seminar bei der FIFA

Mensch und Gesellschaft

Politik

Vor etwa zehn Jahren durfte ich in meiner Funktion als Leiter der Abteilung Compliance bei Casinos Austria ein Seminar in den Räumlichkeiten der FIFA in Zürich besuchen. Der Verband gab sich damals demonstrativ geläutert. Man sprach von Reformen, von...

06 Juli 2026

Der ungleiche Wettbewerb um die besten Lösungen

Architektur, Bauen & Wohnen

Der steuerfinanzierte Waldfonds verfolgt legitime Ziele wie Klimaschutz, nachhaltige Waldbewirtschaftung und die Stärkung regionaler Wertschöpfung. Gleichzeitig zeigt die aktuelle Diskussion jedoch deutlich, dass die konkrete Ausgestaltung zunehmend ...

29 Juni 2026

Bruce Schneier in Wien: Überwachung hat den Besitzer gewechselt

Intelligente Netze

Europa

Mensch und Gesellschaft

Am 26. Juni 2026 lud epicenter.works zu einem Fireside Chat mit dem US-amerikanischen Experten für Kryptographie und Computersicherheit Bruce Schneier ins traditionsreiche Café Alt Wien. Thomas Lohninger führte durch ein gutes halbe Stunde dichtes Ge...

{{{_source.title}}} {{#_source.showPrice}} {{{_source.displayPrice}}} {{/_source.showPrice}}

Ticker

Ticker

Kampf gegen die Verschwendung

Weltmarktführer und Hidden Champions

Blickwinkel ist entscheidend

Der blinde Fleck am Anfang des Projekts

Die Größten der Branche

Ticker

Wenn KI-Agenten ihre Haltung ändern

About the author

Michael Mrak

Author's recent posts

Firmen | News

Neue Blog Beiträge

{{{_source.title}}} {{#_source.showPrice}} {{{_source.displayPrice}}} {{/_source.showPrice}}

Ticker

Ticker

Kampf gegen die Verschwendung

Weltmarktführer und Hidden Champions

Blickwinkel ist entscheidend

Der blinde Fleck am Anfang des Projekts

Die Größten der Branche

Ticker

Wenn KI-Agenten ihre Haltung ändern

About the author

Michael Mrak

Author's recent posts

Firmen | News

Neue Blog Beiträge

REPORT: Immer mehr wert