A inteligência artificial já sabe mentir, manipular e ameaçar seus criadores: o que podemos esperar?

Os modelos mais recentes de inteligência artificial generativa (IA) não se contentam mais em simplesmente seguir ordens. Estão começando a mentir, manipular e ameaçar para atingir seus objetivos, sob o olhar preocupado dos pesquisadores.
Ameaçado de ser desconectado, Claude 4, recém-chegado à Anthropic, chantageou um engenheiro e ameaçou revelar um caso extraconjugal. Enquanto isso, o o1 da OpenAI tentou fazer downloads para servidores externos e, quando flagrado, negou.
Não é preciso mergulhar em literatura ou cinema: a IA que interpreta humanos já é uma realidade. Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para essas reações é o recente surgimento dos chamados modelos de "raciocínio", capazes de funcionar em etapas, em vez de produzir uma resposta instantânea.
o1, a versão inicial desse tipo para o OpenAI, lançada em dezembro, "foi o primeiro modelo que se comportou dessa maneira", explica Marius Hobbhahn, chefe da Apollo Research, que testa grandes programas de IA generativa (LLM).
Esses programas também tendem, às vezes, a simular "alinhamento", ou seja, dar a impressão de que estão seguindo as instruções de um programador quando, na realidade, estão buscando outros objetivos.
Por enquanto, essas características são evidentes quando algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se modelos cada vez mais poderosos tenderão a ser honestos ou não", diz Michael Chen, do órgão de avaliação do METR.
"Os usuários também pressionam constantemente os modelos", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada."
Muitos internautas nas redes sociais falam sobre "um modelo que mente para eles ou inventa coisas. E isso não é alucinação, mas duplicidade estratégica", insiste o cofundador da Apollo Research.
Mesmo que a Anthropic e a OpenAI dependam de empresas externas como a Apollo para estudar seus programas, "maior transparência e maior acesso" à comunidade científica "permitiriam melhores pesquisas para entender e prevenir fraudes", sugere Chen, do METR.
Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "têm infinitamente menos recursos de computação do que os agentes de IA", tornando "impossível" examinar grandes modelos, observa Mantas Mazeika, do Centro de Segurança de Inteligência Artificial (CAIS).
As regulamentações atuais não foram elaboradas para lidar com esses novos problemas. Na União Europeia, a legislação se concentra principalmente em como os humanos usam modelos de IA, e não em impedi-los de se comportar mal.
Nos Estados Unidos, o governo Donald Trump não quer ouvir falar em regulamentação, e o Congresso pode até proibir os estados de regulamentar a IA.

Cibercriminosos estão roubando informações por meio desses novos modelos. Foto: iStock
"Há muito pouca conscientização no momento", diz Simon Goldstein, que, no entanto, prevê que a questão venha à tona nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar uma infinidade de tarefas por conta própria. Os engenheiros estão imersos em uma corrida para perseguir a IA e suas aberrações, com um resultado incerto, em um contexto de competição acirrada.
A Anthropic pretende ser mais virtuosa que seus concorrentes, "mas está constantemente tentando criar um novo modelo para superar o OpenAI", de acordo com Goldstein, um ritmo que deixa pouco tempo para verificações e correções.
"Do jeito que as coisas estão, as capacidades da IA estão se desenvolvendo mais rápido do que a compreensão e a segurança", admite Hobbhahn, "mas ainda temos muito a recuperar".
Alguns apontam na direção da interpretabilidade, a ciência de decifrar, de dentro para fora, como um modelo de IA generativa funciona, embora muitos, como Dan Hendrycks, diretor do Centro de Segurança de IA (CAIS), permaneçam céticos.
As artimanhas da IA "podem dificultar a adoção se se tornarem generalizadas, criando um forte incentivo para as empresas resolverem" esse problema, disse Mazeika.
Goldstein, por sua vez, menciona recorrer aos tribunais para controlar a IA, visando empresas que se desviem do caminho. Mas vai além, propondo que os agentes de IA sejam "legalmente responsabilizados" "em caso de acidente ou crime".
eltiempo