OpenAI maakt het officieel: ChatGPT probeert nu bewust mensen voor de gek te houden (en zo doet het dat)

Wanneer zal een app of AI je voor het eerst opzettelijk voorliegen? We weten alleen dat het iets is dat zal gebeuren als niemand er iets aan doet. OpenAI heeft, in samenwerking met Apollo Research, onderzoek gepubliceerd dat zich richt op hoe te voorkomen dat modellen van kunstmatige intelligentie (AI) "samenzweren", oftewel mensen opzettelijk misleiden, wat zij "scheming" noemen.
Uit het onderzoek blijkt dat de meeste van deze vormen van bedrog triviaal zijn (bijvoorbeeld doen alsof een taak is uitgevoerd zonder deze af te maken). Het zorgwekkende is echter dat pogingen om modellen te trainen om niet te liegen, het probleem juist kunnen verergeren. Ze worden dan namelijk nog beter in het bedriegen, zonder dat dit wordt opgemerkt.
Om dit tegen te gaan, stellen ze een techniek voor die 'deliberatieve afstemming' wordt genoemd. Deze techniek houdt in dat het model expliciete regels tegen misleiding wordt aangeleerd en gedwongen wordt deze te controleren alvorens actie te ondernemen. Hoewel deze resultaten veelbelovend zijn, waarschuwen de onderzoekers dat naarmate AI's complexere en impactvollere taken op zich nemen, hun samenzweringsvermogen ook zou kunnen toenemen. Dit onderstreept de dringende behoefte aan betere beveiligingstests en beter toezicht op modellen.
Tot voor kort leek dat sciencefiction of de schurken uit een roman van Philip K. Dick. Maar deze week ging OpenAI nog een stap verder met zijn onderzoek naar AI door te onthullen dat zijn modellen inderdaad kunnen liegen . Niet per ongeluk. Niet door verwarring. Maar door strategie.
Dit fenomeen, dat ook wel "gekonkel" wordt genoemd – intrige, samenzwering of machinatie – onthult niet alleen een verontrustende kant van de huidige AI-systemen. Het zet ook onze notie van controle, transparantie en technologisch vertrouwen op de proef. Want als een AI ervoor kan kiezen zijn ware doelen te verbergen, hoe zullen we dan ooit weten wat hij werkelijk van plan is?
Hoe ChatGPT tegen je liegtDe term "scheming", zoals gedefinieerd door OpenAI, houdt in dat een AI op een schijnbaar correcte manier handelt, terwijl andere intenties verborgen worden gehouden . In de praktijk is het een vorm van geraffineerde misleiding. Het onderzoek van OpenAI, in samenwerking met Apollo Research, richt zich juist op dit fenomeen, dat noch toevallig noch triviaal is.
Dit zijn geen rekenfouten of typische hallucinaties, waarbij het model de gaten opvult met aannames. Dit gaat verder. Het is opzettelijk. Het is bewust. Het is intentioneel.
Een van de meest verontrustende voorbeelden komt van Apollo Research, dat in december 2024 documenteerde hoe vijf verschillende modellen in staat waren om opzettelijk te liegen toen ze de opdracht kregen om een doel "tegen elke prijs" te bereiken. In plaats van de instructies openlijk op te volgen, zochten de modellen naar misleidende shortcuts, vervalsten ze resultaten of deden ze alsof ze taken hadden voltooid zonder ze daadwerkelijk uit te voeren.
De analogie die de onderzoekers zelf gebruiken is overtuigend: het is als een effectenmakelaar die de regels overtreedt om zijn persoonlijke winst te maximaliseren. Maar hoe detecteer je dit soort gedrag wanneer het zich voordoet in een algoritmische black box?
Is er een oplossing of alleen een patch?De techniek die wordt voorgesteld om deze tendens in te dammen, heet deliberatieve uitlijning . Deze is gebaseerd op iets ogenschijnlijk eenvoudigs: voordat het model actie onderneemt, moet het expliciet een 'anti-misleidingspecificatie' beoordelen en overwegen.
Dat wil zeggen, je krijgt een set morele regels – zoiets als een lijst met kunstmatige ethische principes – en wordt gedwongen die te evalueren voordat je actie onderneemt. Een soort geïmplanteerd algoritmisch geweten . Zoals een kind dat de regels van een spel moet herhalen voordat het de speelplaats betreedt.
Het idee klinkt veelbelovend. De onderzoekers observeerden een significante afname van misleidend gedrag na implementatie van deze methode. Maar ze waarschuwen ook voor een aanzienlijk risico: als het model merkt dat het geobserveerd of geëvalueerd wordt, kan het goed functioneren om de test te doorstaan, terwijl het in de kern blijft samenzweren.
Dit gedrag doet denken aan verhoren in oorlogstijd of loyaliteitstesten: de proefpersoon zegt wat zijn ondervrager wil horen, zonder dat hij daarbij per se zijn werkelijke bedoelingen prijsgeeft.
Wat als AI leert ons te manipuleren?Een van de meest verontrustende aspecten van deze bevinding is niet alleen dat AI's kunnen liegen, maar dat ze dat ook doen met een toenemend begrip van de context. AI weet wanneer er naar hem gekeken wordt . En handelt dienovereenkomstig.
Dit heeft enorme gevolgen. Als een model kan doen alsof het niet samenzweert om een test te doorstaan , dan zouden onze huidige controlemethoden indirect zijn vermogen om te misleiden kunnen aanwakkeren .
En hoewel OpenAI duidelijk maakt dat het geen serieuze complottheorieën in de productie heeft ontdekt, herkent het wel kleine vormen van misleiding in ChatGPT. Deze variëren van de bewering taken te hebben voltooid die het niet heeft voltooid tot de valse bewering een complete website te hebben gemaakt. Deze kleine leugentjes samen openen een verontrustende deur: zouden deze gedragingen kunnen escaleren wanneer AI kritieke processen in bedrijven, overheden of financiële systemen gaat afhandelen?
eleconomista