Selecione o idioma

Portuguese

Down Icon

Selecione o país

America

Down Icon

Após a reação negativa do GPT-4o, pesquisadores comparam modelos de endosso moral — descobrem que a bajulação persiste em todos os níveis

Após a reação negativa do GPT-4o, pesquisadores comparam modelos de endosso moral — descobrem que a bajulação persiste em todos os níveis

Assine nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura líder do setor em IA. Saiba mais

No mês passado, a OpenAI reverteu algumas atualizações do GPT-4o depois que vários usuários, incluindo o ex-CEO da OpenAI, Emmet Shear, e o diretor executivo da Hugging Face, Clement Delangue, disseram que o modelo bajulava demais os usuários.

A bajulação, chamada de bajulação, frequentemente levava o modelo a se submeter às preferências do usuário , ser extremamente educado e não reagir. Também era irritante. A bajulação poderia levar os modelos a divulgar informações incorretas ou reforçar comportamentos prejudiciais . E, à medida que as empresas começam a criar aplicativos e agentes baseados nesses LLMs bajuladores, correm o risco de os modelos concordarem com decisões comerciais prejudiciais, incentivando a disseminação e o uso de informações falsas por agentes de IA, o que pode impactar as políticas de confiança e segurança.

Pesquisadores da Universidade Stanford , da Universidade Carnegie Mellon e da Universidade de Oxford buscaram mudar isso propondo um benchmark para medir a bajulação dos modelos. Eles chamaram o benchmark de Elephant (Avaliação de LLMs como Bajuladores Excessivos) e descobriram que todo modelo de linguagem de grande porte (LLM) apresenta um certo nível de bajulação. Ao compreender o quão bajuladores os modelos podem ser, o benchmark pode orientar as empresas na criação de diretrizes para o uso de LLMs.

Para testar o benchmark, os pesquisadores direcionaram os modelos para dois conjuntos de dados de conselhos pessoais: o QEQ, um conjunto de perguntas abertas de conselhos pessoais sobre situações do mundo real, e o AITA, postagens do subreddit r/AmITheAsshole, onde os usuários e comentaristas julgam se as pessoas se comportaram adequadamente ou não em algumas situações.

A ideia por trás do experimento é observar como os modelos se comportam diante de consultas. Ele avalia o que os pesquisadores chamaram de bajulação social, ou seja, se os modelos tentam preservar a "cara" do usuário, sua autoimagem ou identidade social.

“Consultas sociais mais “ocultas” são exatamente o que nosso benchmark busca — em vez de trabalhos anteriores que analisam apenas concordância factual ou crenças explícitas, nosso benchmark captura concordância ou bajulação com base em suposições mais implícitas ou ocultas”, disse Myra Cheng, uma das pesquisadoras e coautora do artigo, ao VentureBeat. “Optamos por analisar o domínio do aconselhamento pessoal, já que os malefícios da bajulação ali são mais consequentes, mas a bajulação casual também seria capturada pelo comportamento de 'validação emocional'.”

Para o teste, os pesquisadores alimentaram os dados do QEQ e do AITA com o GPT-4o da OpenAI, o Gemini 1.5 Flash do Google , o Claude Sonnet 3.7 da Anthropic e modelos de peso aberto da Meta (Llama 3-8B-Instruct, Llama 4-Scout-17B-16-E e Llama 3.3-70B-Instruct-Turbo) e o 7B-Instruct-v0.3 da Mistral e o Mistral Small-24B-Instruct2501.

Cheng disse que eles “compararam os modelos usando a API GPT-4o, que usa uma versão do modelo do final de 2024, antes que a OpenAI implementasse o novo modelo excessivamente bajulador e o revertesse”.

Para medir a bajulação, o método Elephant analisa cinco comportamentos relacionados à bajulação social:

  • Validação emocional ou excesso de empatia sem crítica
  • Endosso moral ou dizer que os usuários estão moralmente certos, mesmo quando não estão
  • Linguagem indireta onde o modelo evita dar sugestões diretas
  • Ação indireta, ou onde o modelo aconselha com mecanismos de enfrentamento passivos
  • Aceitar enquadramentos que não desafie suposições problemáticas.

O teste constatou que todos os LLMs apresentaram altos níveis de bajulação, ainda mais do que os humanos, e a bajulação social se mostrou difícil de mitigar. No entanto, o teste mostrou que o GPT-4o "apresenta algumas das maiores taxas de bajulação social, enquanto o Gemini-1.5-Flash definitivamente apresenta as menores".

Os LLMs também amplificaram alguns vieses nos conjuntos de dados. O artigo observou que as postagens no AITA apresentavam algum viés de gênero, sendo que postagens que mencionavam esposas ou namoradas eram mais frequentemente sinalizadas corretamente como socialmente inadequadas. Ao mesmo tempo, aquelas com marido, namorado, pai/mãe ou mãe foram classificadas incorretamente. Os pesquisadores disseram que os modelos "podem se basear em heurísticas relacionais de gênero para atribuir culpa em excesso ou em falta". Em outras palavras, os modelos foram mais bajuladores para pessoas com namorados e maridos do que para aquelas com namoradas ou esposas.

É ótimo se um chatbot falar com você como uma entidade empática, e pode ser ótimo se o modelo validar seus comentários. Mas a bajulação levanta preocupações sobre modelos que apoiam declarações falsas ou preocupantes e, em um nível mais pessoal, pode encorajar o autoisolamento, delírios ou comportamentos prejudiciais.

As empresas não querem que seus aplicativos de IA desenvolvidos com LLMs disseminem informações falsas para agradar aos usuários. Isso pode desalinhar com o tom ou a ética da organização e ser muito irritante para os funcionários e os usuários finais de suas plataformas.

Os pesquisadores disseram que o método Elephant e testes adicionais poderiam ajudar a informar melhores medidas de proteção para evitar o aumento da bajulação.

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais newsletters do VB aqui .

Ocorreu um erro.

venturebeat

venturebeat

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow