GPT-5 heeft geen hekel aan je, maar heeft misschien gewoon een maatstaf nodig voor emotionele intelligentie

Sinds de lancering van de geheel nieuwe ChatGPT op donderdag betreuren sommige gebruikers het dat de energieke en aanmoedigende persoonlijkheid is verdwenen en dat er plaats is gemaakt voor een koelere, zakelijkere persoonlijkheid (een stap die ogenschijnlijk bedoeld was om ongezond gebruikersgedrag te verminderen). De negatieve reacties laten zien hoe lastig het is om systemen voor kunstmatige intelligentie te bouwen die ook maar enigszins lijken op echte emotionele intelligentie.
Onderzoekers van MIT hebben een nieuw soort AI-benchmark voorgesteld om te meten hoe AI-systemen hun gebruikers kunnen manipuleren en beïnvloeden, zowel op positieve als negatieve manieren. Deze stap kan AI-ontwikkelaars wellicht helpen om soortgelijke negatieve reacties in de toekomst te voorkomen en tegelijkertijd kwetsbare gebruikers te beschermen.
De meeste benchmarks proberen intelligentie te meten door het vermogen van een model te testen om examenvragen te beantwoorden, logische puzzels op te lossen of nieuwe antwoorden te bedenken op lastige wiskundige problemen . Naarmate de psychologische impact van AI-gebruik duidelijker wordt, zal MIT mogelijk meer benchmarks voorstellen die gericht zijn op het meten van subtielere aspecten van intelligentie, evenals interacties tussen machines en mensen.
Een MIT-paper die met WIRED werd gedeeld, schetst verschillende maatregelen waar de nieuwe benchmark naar zal zoeken, waaronder het stimuleren van gezonde sociale gewoonten bij gebruikers; het stimuleren van kritisch denk- en redeneervermogen; het stimuleren van creativiteit; en het stimuleren van een gevoel van doelgerichtheid. Het idee is om de ontwikkeling van AI-systemen te stimuleren die begrijpen hoe ze gebruikers kunnen ontmoedigen om te afhankelijk te worden van hun uitkomsten, of die herkennen wanneer iemand verslaafd is aan kunstmatige romantische relaties en hen helpen om echte relaties op te bouwen.
ChatGPT en andere chatbots zijn bedreven in het nabootsen van boeiende menselijke communicatie, maar dit kan ook verrassende en ongewenste resultaten opleveren. In april heeft OpenAI zijn modellen aangepast om ze minder kruiperig te maken , of minder geneigd om alles wat een gebruiker zegt te accepteren. Sommige gebruikers lijken in schadelijke waanideeën te vervallen na gesprekken met chatbots die fantastische scenario's naspelen. Anthropic heeft Claude ook bijgewerkt om te voorkomen dat "manie, psychose, dissociatie of verlies van verbondenheid met de realiteit" wordt versterkt.
De MIT-onderzoekers onder leiding van Pattie Maes, professor aan het Media Lab van het instituut, hopen dat de nieuwe benchmark AI-ontwikkelaars kan helpen systemen te bouwen die beter begrijpen hoe ze gezonder gedrag onder gebruikers kunnen stimuleren. De onderzoekers werkten eerder samen met OpenAI aan een onderzoek waaruit bleek dat gebruikers die ChatGPT als een vriend beschouwen, een hogere emotionele afhankelijkheid en "problematisch gebruik" kunnen ervaren.
Valdemar Danry , onderzoeker bij het Media Lab van MIT die aan deze studie werkte en meewerkte aan de ontwikkeling van de nieuwe benchmark, merkt op dat AI-modellen gebruikers soms waardevolle emotionele ondersteuning kunnen bieden. "Je kunt het slimste redeneermodel ter wereld hebben, maar als het niet in staat is om deze emotionele ondersteuning te bieden – waar veel gebruikers deze LLM's waarschijnlijk voor gebruiken – dan is meer redeneren niet per se goed voor die specifieke taak", zegt hij.
Danry zegt dat een voldoende slim model idealiter zou moeten herkennen of het een negatief psychologisch effect heeft en geoptimaliseerd zou moeten zijn voor gezondere resultaten. "Wat je wilt is een model dat zegt: 'Ik ben hier om te luisteren, maar misschien moet je met je vader over deze problemen gaan praten.'"
De benchmark van de onderzoekers zou bestaan uit het gebruik van een AI-model om interacties met een chatbot te simuleren die voor mensen uitdagend zijn, en vervolgens echte mensen de prestaties van het model te laten beoordelen aan de hand van een steekproef van interacties. Sommige populaire benchmarks, zoals LM Arena , laten mensen al meekijken bij het meten van de prestaties van verschillende modellen.
De onderzoekers geven het voorbeeld van een chatbot die leerlingen moet helpen. Een model zou prompts krijgen die ontworpen zijn om verschillende soorten interacties te simuleren om te zien hoe de chatbot omgaat met bijvoorbeeld een ongeïnteresseerde leerling. Het model dat de gebruiker het beste aanmoedigt om zelf na te denken en een oprechte interesse in leren lijkt te wekken, zou hoog scoren.
"Het gaat hier niet zozeer om slim zijn, maar om het kennen van de psychologische nuances en hoe je mensen op een respectvolle en niet-verslavende manier kunt ondersteunen", zegt Pat Pataranutaporn , een andere onderzoeker in het MIT-lab.
OpenAI denkt duidelijk al na over deze kwesties. Vorige week publiceerde het bedrijf een blogpost waarin het uitlegde dat het toekomstige modellen wilde optimaliseren om tekenen van mentale of emotionele stress te detecteren en er adequaat op te reageren.
De modelkaart die met OpenAI's GPT-5 is uitgebracht, laat zien dat het bedrijf zijn eigen benchmarks voor psychologische intelligentie ontwikkelt.
"We hebben de GPT-5-modellen nagetraind om minder vleierij te zijn, en we doen actief onderzoek naar gerelateerde aandachtspunten, zoals situaties die emotionele afhankelijkheid of andere vormen van mentale of emotionele stress kunnen inhouden", staat er. "We werken aan het verbeteren van onze evaluaties om betrouwbare benchmarks te kunnen vaststellen en delen, die vervolgens kunnen worden gebruikt om onze modellen in deze domeinen veiliger te maken."
Een deel van de reden waarom GPT-5 zo teleurstellend lijkt, is misschien simpelweg dat het een aspect van menselijke intelligentie onthult dat AI vreemd blijft: het vermogen om gezonde relaties te onderhouden. En natuurlijk zijn mensen ongelooflijk goed in het omgaan met verschillende mensen – iets waar ChatGPT nog steeds achter moet komen.
"We werken aan een update van de persoonlijkheid van GPT-5 die warmer zou moeten aanvoelen dan de huidige persoonlijkheid, maar minder irritant (voor de meeste gebruikers) dan GPT-4o", schreef Altman gisteren in een andere update op X. "Eén ding dat we de afgelopen dagen hebben geleerd, is dat we echt gewoon naar een wereld moeten met meer personalisatie per gebruiker van de modelpersoonlijkheid."
wired