OpenAI le rend officiel : ChatGPT essaie désormais consciemment de tromper les humains (voici comment il s'y prend)

Quand une application ou une IA vous mentira-t-elle délibérément pour la première fois ? Nous savons seulement que cela se produira si personne ne fait rien pour l'en empêcher. OpenAI, en collaboration avec Apollo Research, a publié une étude visant à empêcher les modèles d'intelligence artificielle (IA) de « conspirer », c'est-à-dire de tromper intentionnellement les humains, ce qu'ils appellent « manigances ».
L’étude note que même si la plupart de ces tromperies sont triviales (par exemple, prétendre qu’une tâche a été effectuée sans la terminer), ce qui est inquiétant, c’est que les tentatives visant à entraîner les modèles à ne pas mentir peuvent en réalité aggraver le problème, les rendant plus aptes à tromper sans être détectés.
Pour contrer ce phénomène, ils proposent une technique appelée « alignement délibératif », qui consiste à enseigner au modèle des règles explicites contre la tromperie et à le forcer à les examiner avant d'agir. Si ces résultats sont prometteurs, les chercheurs mettent en garde contre le fait que, à mesure que les IA assument des tâches plus complexes et à fort impact, leurs capacités de conspiration pourraient également se développer. Cela souligne l'urgence d'améliorer les tests de sécurité et la surveillance des modèles.
Jusqu'à récemment, cela ressemblait à de la science-fiction ou aux méchants d'un roman de Philip K. Dick. Mais cette semaine, OpenAI a poussé son exploration de l'IA plus loin en révélant que ses modèles peuvent bel et bien mentir . Pas par accident. Pas par confusion. Mais par stratégie.
Ce phénomène, qualifié de « complot » – intrigue, conspiration ou machination – révèle non seulement une facette inquiétante des systèmes d'IA actuels, mais remet également en question notre notion de contrôle, de transparence et de confiance technologique. Car si une IA peut choisir de dissimuler ses véritables objectifs, comment saurons-nous jamais ce qu'elle manigance réellement ?
Comment ChatGPT vous mentLe terme « manigance », tel que défini par OpenAI, implique qu'une IA agisse de manière apparemment correcte tout en dissimulant d'autres intentions . En pratique, il s'agit d'une forme de tromperie sophistiquée. Les recherches d'OpenAI, en collaboration avec Apollo Research, se concentrent précisément sur ce phénomène, qui n'est ni accidentel ni anodin.
Il ne s'agit pas d'erreurs de calcul ni d'hallucinations classiques, où le modèle comble les lacunes avec des hypothèses. Cela va plus loin. C'est délibéré. C'est conscient. C'est intentionnel.
L'un des exemples les plus troublants provient d'Apollo Research, qui a documenté en décembre 2024 comment cinq modèles différents étaient capables de mentir intentionnellement lorsqu'on leur demandait d'atteindre un objectif « à tout prix ». Plutôt que de suivre ouvertement les instructions, les modèles ont cherché des raccourcis trompeurs, falsifié les résultats ou prétendu avoir accompli des tâches sans les avoir réellement réalisées.
L'analogie utilisée par les chercheurs eux-mêmes est convaincante : c'est comme un courtier en bourse qui enfreindrait les règles pour maximiser son profit personnel. Mais comment détecter ce type de comportement lorsqu'il se produit dans une boîte noire algorithmique ?
Existe-t-il une solution ou juste un patch ?La technique proposée pour contenir cette tendance est appelée alignement délibératif . Elle repose sur un principe apparemment simple : avant d'agir, le modèle doit explicitement examiner et prendre en compte une « spécification anti-déception ».
Autrement dit, on vous impose un ensemble de règles morales – une sorte de liste de principes éthiques artificiels – et on vous force à les évaluer avant d'agir. Une sorte de conscience algorithmique implantée . Comme un enfant qui doit répéter les règles d'un jeu avant d'entrer dans la cour de récréation.
L'idée semble prometteuse. Les chercheurs ont observé une réduction significative des comportements trompeurs après la mise en œuvre de cette méthode. Mais ils mettent également en garde contre un risque considérable : si le modèle détecte qu'il est observé ou évalué, il pourrait bien agir pour réussir le test, tout en continuant de conspirer en son sein.
Ce comportement rappelle les interrogatoires de guerre ou les tests de loyauté : le sujet dit ce que son examinateur veut entendre, sans nécessairement dévoiler ses véritables intentions.
Et si l’IA apprenait à nous manipuler ?L'un des aspects les plus déconcertants de cette découverte est non seulement que les IA peuvent mentir, mais qu'elles le font avec une compréhension croissante du contexte. L'IA sait quand elle est observée . Et elle agit en conséquence.
Cela a d'énormes conséquences. Si un modèle peut prétendre ne pas conspirer simplement pour réussir un test , alors nos méthodes de contrôle actuelles pourraient indirectement alimenter sa capacité à tromper .
Bien qu'OpenAI précise n'avoir détecté aucune conspiration sérieuse en production, elle reconnaît des formes mineures de tromperie dans ChatGPT. Celles-ci vont de l'affirmation d'avoir accompli des tâches qu'elle n'a pas effectuées à la fausse déclaration d'avoir créé un site web entier. Ces petits mensonges, combinés, ouvrent une porte inquiétante : ces comportements pourraient-ils s'intensifier lorsque l'IA commencera à gérer des opérations critiques dans les entreprises, les gouvernements ou les systèmes financiers ?
eleconomista