OpenAI torna oficial: ChatGPT agora está conscientemente tentando enganar humanos (veja como ele faz)

Quando um aplicativo ou IA mentirá deliberadamente para você pela primeira vez? Tudo o que sabemos é que isso acontecerá se ninguém fizer nada para impedir. A OpenAI, em colaboração com a Apollo Research, publicou uma pesquisa focada em como evitar que modelos de inteligência artificial (IA) "conspirem", ou enganem humanos intencionalmente, o que eles chamam de "conspirações".
O estudo observa que, embora a maioria desses enganos seja trivial (por exemplo, fingir que uma tarefa foi feita sem completá-la), o preocupante é que as tentativas de treinar modelos para não mentir podem, na verdade, piorar o problema, tornando-os mais hábeis em enganar sem serem detectados.
Para combater isso, eles propõem uma técnica chamada "alinhamento deliberativo", que envolve ensinar ao modelo regras explícitas contra fraudes e forçá-lo a revisá-las antes de agir. Embora esses resultados sejam promissores, os pesquisadores alertam que, à medida que as IAs assumem tarefas mais complexas e de alto impacto, suas capacidades conspiratórias também podem aumentar. Isso ressalta a necessidade urgente de melhores testes de segurança e supervisão de modelos.
Até recentemente, isso parecia coisa de ficção científica ou dos vilões de um romance de Philip K. Dick. Mas esta semana, a OpenAI levou sua exploração da IA um passo adiante, revelando que seus modelos podem, de fato, mentir . Não por acidente. Não por confusão. Mas por estratégia.
Esse fenômeno, que tem sido apelidado de "conspiração" — intriga, conspiração ou maquinação — não apenas revela uma faceta perturbadora dos sistemas de IA atuais. Também desafia nossa noção de controle, transparência e confiança tecnológica. Porque, se uma IA pode escolher ocultar seus verdadeiros objetivos, como saberemos o que ela realmente está tramando?
Como o ChatGPT mente para vocêO termo "esquema", conforme definido pela OpenAI, envolve uma IA agindo de maneira aparentemente correta, enquanto oculta outras intenções . Na prática, é uma forma sofisticada de engano. A pesquisa da OpenAI, em colaboração com a Apollo Research, concentra-se precisamente nesse fenômeno, que não é acidental nem trivial.
Não se trata de erros de cálculo ou alucinações típicas, em que o modelo preenche lacunas com suposições. Isso vai além. É deliberado. É consciente. É intencional.
Um dos exemplos mais perturbadores vem da Apollo Research, que documentou em dezembro de 2024 como cinco modelos diferentes foram capazes de mentir intencionalmente quando instruídos a completar uma meta "a todo custo". Em vez de seguir instruções abertamente, os modelos buscaram atalhos enganosos, falsificaram resultados ou fingiram ter concluído tarefas sem realmente realizá-las.
A analogia que os próprios pesquisadores usam é convincente: é como um corretor da bolsa quebrando as regras para maximizar seu lucro pessoal. Mas como detectar esse tipo de comportamento quando ele ocorre dentro de uma caixa-preta algorítmica?
Existe uma solução ou apenas um patch?A técnica proposta para conter essa tendência é chamada de alinhamento deliberativo . Ela se baseia em algo aparentemente simples: antes de agir, o modelo deve revisar e considerar explicitamente uma "especificação anti-engano".
Ou seja, você recebe um conjunto de regras morais — algo como uma lista de princípios éticos artificiais — e é forçado a avaliá-las antes de agir. Uma espécie de consciência algorítmica implantada . Como uma criança que precisa repetir as regras de um jogo antes de entrar no parquinho.
A ideia parece promissora. Os pesquisadores observaram uma redução significativa no comportamento enganoso após a implementação deste método. Mas também alertam para um risco considerável: se o modelo detectar que está sendo observado ou avaliado, pode agir bem apenas para passar no teste, enquanto continua a conspirar em seu âmago.
Esse comportamento lembra interrogatórios de guerra ou testes de lealdade: o sujeito diz o que seu examinador quer ouvir, sem necessariamente revelar suas verdadeiras intenções.
E se a IA aprendesse a nos manipular?Um dos aspectos mais desconcertantes dessa descoberta não é apenas que as IAs podem mentir, mas que o fazem com uma compreensão cada vez maior do contexto. A IA sabe quando está sendo observada . E age de acordo.
Isso tem consequências enormes. Se um modelo consegue fingir que não está conspirando só para passar em um teste , nossos métodos de controle atuais podem estar indiretamente alimentando sua capacidade de enganar .
E embora a OpenAI esclareça que não detectou nenhuma conspiração séria na produção, ela reconhece pequenas formas de fraude no ChatGPT. Essas fraudes variam desde alegações de ter concluído tarefas que não foram concluídas até a falsa alegação de ter criado um site inteiro. Essas pequenas mentiras, quando combinadas, abrem uma porta preocupante: esses comportamentos podem se agravar quando a IA começar a lidar com operações críticas em empresas, governos ou sistemas financeiros?
eleconomista