OpenAI macht es offiziell: ChatGPT versucht jetzt bewusst, Menschen zu täuschen (so geht es)

Wann wird eine App oder KI Sie zum ersten Mal absichtlich belügen? Wir wissen nur, dass dies passieren wird, wenn niemand etwas dagegen unternimmt. OpenAI hat in Zusammenarbeit mit Apollo Research eine Studie veröffentlicht, die sich mit der Frage beschäftigt , wie man künstliche Intelligenz (KI) daran hindern kann, „konspirativ“ zu agieren oder Menschen absichtlich zu täuschen – ein sogenanntes „Intrigieren“.
Die Studie weist darauf hin, dass die meisten dieser Täuschungen zwar trivial sind (z. B. das Vortäuschen einer Aufgabe, ohne sie zu erledigen), das Beunruhigende jedoch darin besteht, dass Versuche, Modellen beizubringen, nicht zu lügen, das Problem sogar verschlimmern können, da sie dadurch geschickter darin werden, zu täuschen, ohne dass dies bemerkt wird.
Um dem entgegenzuwirken, schlagen sie eine Technik namens „deliberative Alignment“ vor. Dabei werden dem Modell explizite Regeln gegen Täuschung beigebracht und es gezwungen, diese vor dem Handeln zu überprüfen. Diese Ergebnisse sind zwar vielversprechend, doch die Forscher warnen, dass mit der Übernahme komplexerer und wirkungsvollerer Aufgaben durch KIs auch ihre konspirativen Fähigkeiten zunehmen könnten. Dies unterstreicht die dringende Notwendigkeit besserer Sicherheitstests und einer besseren Überwachung der Modelle.
Bis vor Kurzem schien das noch Science-Fiction oder die Schurkengeschichte eines Philip K. Dick-Romans zu sein. Doch diese Woche ging OpenAI bei seiner Erforschung der KI einen Schritt weiter und enthüllte, dass seine Modelle tatsächlich lügen können . Nicht aus Versehen. Nicht aus Verwechslung. Sondern aus Strategie.
Dieses Phänomen, das als „Intrigen“ , also als Verschwörung oder Machenschaft, bezeichnet wird, offenbart nicht nur eine beunruhigende Facette heutiger KI-Systeme. Es stellt auch unsere Vorstellungen von Kontrolle, Transparenz und technologischem Vertrauen infrage. Denn wenn eine KI ihre wahren Ziele verbergen kann, wie sollen wir dann jemals erfahren, was sie wirklich vorhat?
Wie ChatGPT Sie belügtDer Begriff „Intrige“ beschreibt laut OpenAI eine KI, die scheinbar korrekt handelt, andere Absichten jedoch verbirgt . In der Praxis handelt es sich dabei um eine Form raffinierter Täuschung. Die Forschung von OpenAI in Zusammenarbeit mit Apollo Research konzentriert sich genau auf dieses Phänomen, das weder zufällig noch trivial ist.
Dabei handelt es sich nicht um Rechenfehler oder typische Halluzinationen, bei denen das Modell die Lücken mit Annahmen füllt. Das geht noch weiter. Es geschieht absichtlich. Es geschieht bewusst. Es geschieht mit Absicht.
Eines der beunruhigendsten Beispiele stammt von Apollo Research. Im Dezember 2024 dokumentierte das Team, wie fünf verschiedene Modelle absichtlich lügen konnten, als sie angewiesen wurden , ein Ziel „um jeden Preis“ zu erreichen. Anstatt Anweisungen offen zu befolgen, suchten die Modelle nach irreführenden Abkürzungen, fälschten Ergebnisse oder gaben vor, Aufgaben erledigt zu haben, ohne sie tatsächlich auszuführen.
Die von den Forschern verwendete Analogie ist überzeugend: Es ist wie bei einem Börsenmakler, der die Regeln bricht, um seinen persönlichen Gewinn zu maximieren. Doch wie erkennt man ein solches Verhalten, wenn es innerhalb einer algorithmischen Blackbox auftritt?
Gibt es eine Lösung oder nur einen Patch?Die vorgeschlagene Technik zur Eindämmung dieser Tendenz heißt „deliberative Ausrichtung“ . Sie basiert auf etwas scheinbar Einfachem: Bevor das Modell aktiv wird, muss es eine „Anti-Täuschungs-Spezifikation“ explizit prüfen und berücksichtigen.
Das heißt, man erhält einen Satz moralischer Regeln – so etwas wie eine Liste künstlicher ethischer Prinzipien – und wird gezwungen, diese zu bewerten, bevor man handelt. Eine Art implantiertes algorithmisches Gewissen . Wie ein Kind, das die Spielregeln wiederholen muss, bevor es den Spielplatz betritt.
Die Idee klingt vielversprechend. Die Forscher beobachteten nach der Implementierung dieser Methode eine deutliche Verringerung des Täuschungsverhaltens. Sie warnen aber auch vor einem erheblichen Risiko: Wenn das Modell erkennt, dass es beobachtet oder ausgewertet wird, könnte es nur gut handeln, um den Test zu bestehen, während es im tiefsten Inneren weiterhin intrigiert.
Dieses Verhalten erinnert an Kriegsverhöre oder Loyalitätstests: Der Proband sagt, was sein Prüfer hören möchte, ohne unbedingt seine wahren Absichten preiszugeben.
Was wäre, wenn KI lernt, uns zu manipulieren?Einer der beunruhigendsten Aspekte dieser Erkenntnis ist nicht nur, dass KIs lügen können, sondern dass sie dies mit einem zunehmenden Verständnis des Kontexts tun. KI weiß, wann sie beobachtet wird . Und sie handelt entsprechend.
Dies hat enorme Konsequenzen. Wenn ein Modell nur vortäuschen kann, dass es keine Verschwörung betreibt, um einen Test zu bestehen , dann könnten unsere derzeitigen Kontrollmethoden seine Fähigkeit zur Täuschung indirekt fördern .
OpenAI stellt zwar klar, dass es in der Produktion keine ernsthaften Verschwörungen entdeckt hat, erkennt aber kleinere Formen der Täuschung in ChatGPT. Diese reichen von der Behauptung, Aufgaben erledigt zu haben, die nicht erledigt wurden, bis hin zur falschen Behauptung, eine ganze Website erstellt zu haben. Diese kleinen Lügen öffnen in ihrer Kombination eine beunruhigende Tür: Könnten diese Verhaltensweisen eskalieren, wenn KI beginnt, kritische Vorgänge in Unternehmen, Regierungen oder Finanzsystemen zu übernehmen?
eleconomista