Desenvolvedores dizem que o GPT-5 é uma mistura de coisas

Na semana passada, quando a OpenAI lançou o GPT-5 , informou aos engenheiros de software que o modelo foi projetado para ser um "verdadeiro colaborador de codificação ", que se destaca na geração de código de alta qualidade e na execução de tarefas de software agênticas, ou automatizadas. Embora a empresa não tenha dito isso explicitamente, a OpenAI parecia estar mirando diretamente no Claude Code, da Anthropic , que rapidamente se tornou a ferramenta favorita de muitos desenvolvedores para codificação assistida por IA.
Mas os desenvolvedores disseram à WIRED que o GPT-5 tem sido um caso a parte até agora. Ele se destaca em raciocínio técnico e planejamento de tarefas de codificação, mas alguns dizem que os modelos de raciocínio Opus e Sonnet mais recentes da Anthropic ainda produzem código melhor. Dependendo da versão do GPT-5 que os desenvolvedores usam — baixa, média ou alta verbosidade — o modelo pode ser mais elaborado, o que às vezes leva à geração de linhas de código desnecessárias ou redundantes.
Alguns engenheiros de software também criticaram a forma como a OpenAI avaliou o desempenho do GPT-5 na codificação, argumentando que os benchmarks utilizados são enganosos. Uma empresa de pesquisa chamou um gráfico publicado pela OpenAI, vangloriando-se das capacidades do GPT-5, de "crime de gráfico".
O GPT-5 se destaca em pelo menos um aspecto: várias pessoas observaram que, em comparação com modelos concorrentes, é uma opção muito mais econômica. "O GPT-5 é superado em grande parte por outros modelos de IA em nossos testes, mas é realmente barato", afirma Sayash Kapoor, doutorando em ciência da computação e pesquisador da Universidade de Princeton, coautor do livro AI Snake Oil .
Kapoor afirma que ele e sua equipe vêm realizando testes de benchmark para avaliar as capacidades do GPT-5 desde que o modelo foi lançado ao público na semana passada. Ele observa que o teste padrão usado por sua equipe – que mede o quão bem um modelo de linguagem consegue escrever código que reproduza os resultados de 45 artigos científicos – custa US$ 30 para ser executado com o GPT-5 configurado para verbosidade média ou intermediária. O mesmo teste usando o Opus 4.1 da Anthropic custa US$ 400. No total, Kapoor afirma que sua equipe gastou cerca de US$ 20.000 testando o GPT-5 até o momento.
Embora o GPT-5 seja barato, os testes de Kapoor indicam que o modelo também é menos preciso do que alguns de seus concorrentes. O modelo premium de Claude obteve uma taxa de precisão de 51%, medida pela quantidade de artigos científicos que reproduziu com precisão. A versão média do GPT-5 recebeu uma taxa de precisão de 27%. (Kapoor ainda não realizou o mesmo teste usando o GPT-5 de alta resolução, portanto, é uma comparação indireta, visto que o Opus 4.1 é o modelo mais poderoso da Anthropic.)
A porta-voz da OpenAI, Lindsay McCallum, indicou à WIRED seu blog, onde afirmou ter treinado o GPT-5 em "tarefas de codificação do mundo real, em colaboração com os primeiros testadores de startups e empresas". A empresa também destacou algumas de suas medições internas de precisão para o GPT-5, que mostraram que o modelo "pensamento" do GPT-5, que realiza um raciocínio mais deliberado, obteve a maior pontuação em precisão entre todos os modelos da OpenAI. O GPT-5 "principal", no entanto, ainda ficou aquém dos modelos lançados anteriormente na escala de precisão da própria OpenAI.
A porta-voz da Anthropic, Amie Rotherham, afirmou em um comunicado que "as declarações de desempenho e os modelos de precificação costumam ter diferenças quando os desenvolvedores começam a usá-los em ambientes de produção. Como os modelos de raciocínio podem usar rapidamente muitos tokens enquanto pensam, a indústria está caminhando para um mundo em que o preço por resultado importa mais do que o preço por token".
Alguns desenvolvedores afirmam ter tido experiências bastante positivas com o GPT-5 até o momento. Jenny Wang, engenheira, investidora e criadora do agente de estilo pessoal Alta, disse à WIRED que o modelo parece ser melhor do que outros modelos para concluir tarefas complexas de codificação de uma só vez. Ela o comparou aos o3 e 4o da OpenAI, que ela usa com frequência para geração de código e correções simples, "como formatação, ou se eu quiser criar um endpoint de API semelhante ao que já tenho", diz Wang.
Em seus testes com o GPT-5, Wang conta que pediu ao modelo que gerasse código para uma página de imprensa no site de sua empresa, incluindo elementos de design específicos que combinassem com a estética do restante do site. O GPT-5 concluiu a tarefa em uma única tentativa, enquanto, no passado, Wang teria que revisar seus prompts durante o processo. Houve um erro significativo, porém: "Ele alucinou as URLs", diz Wang.
Outro desenvolvedor, que falou sob condição de anonimato porque seu empregador não o autorizou a falar com a imprensa, diz que o GPT-5 é excelente na resolução de problemas técnicos profundos.
O projeto atual do desenvolvedor é escrever uma ferramenta de análise de rede programática, que exigiria isolamento de código por questões de segurança. "Basicamente, apresentei meu projeto e alguns caminhos que estava considerando, e o GPT-5 absorveu tudo e me retornou com algumas recomendações, juntamente com um cronograma realista", explica o desenvolvedor. "Estou impressionado."
Vários parceiros e clientes empresariais da OpenAI, incluindo Cursor, Windsurf e Notion, atestam publicamente as habilidades de codificação e raciocínio do GPT-5. (A OpenAI incluiu muitas dessas observações em sua própriapostagem de blog anunciando o novo modelo.) A Notion também compartilhou no X que ele é "rápido, completo e lida com trabalhos complexos 15% melhor do que outros modelos que testamos".
Mas poucos dias após o lançamento do GPT-5, alguns desenvolvedores começaram a reclamar online. Muitos disseram que as capacidades de codificação do GPT-5 pareciam estar atrasadas para o que deveria ser um modelo de última geração e ultracapaz da empresa de IA mais comentada do mundo.
“O GPT-5 da OpenAI é muito bom, mas parece algo que teria sido lançado há um ano”, diz Kieran Klassen, desenvolvedor que vem desenvolvendo um assistente de IA para caixas de entrada de e-mail. “Seus recursos de codificação me lembram do Sonnet 3.5”, acrescenta, referindo-se a um modelo da Anthropic lançado em junho de 2024.
Amir Salihefendić, fundador da startup Doist, disse em uma publicação nas redes sociais que estava usando o GPT-5 no Cursor e o achou "muito decepcionante" e que "é especialmente ruim em codificação". Ele disse que o lançamento do GPT-4 pareceu um "momento Llama 4", referindo-se ao modelo de IA da Meta, que também decepcionou algumas pessoas na comunidade de IA.
No X, o desenvolvedor Mckay Wrigley escreveu que o GPT-5 é um “modelo fenomenal de bate-papo cotidiano”, mas quando se trata de codificação, “ainda usarei Claude Code + Opus”.
Outros desenvolvedores descrevem o GPT-5 como "exaustivo" — às vezes útil, mas frequentemente irritante por sua prolixidade. Wang, que ficou satisfeita com o projeto de codificação frontend que atribuiu ao GPT-5, afirma ter notado que o modelo era "mais redundante. Claramente, poderia ter apresentado uma solução mais limpa ou mais curta". (Kapoor ressalta que a verbosidade do GPT-5 pode ser ajustada, permitindo que os usuários peçam que ele seja menos tagarela ou até mesmo raciocine menos em troca de melhor desempenho ou preço mais baixo.)
Itamar Friedman, cofundador e CEO da plataforma de codificação de IA Qodo, acredita que algumas das críticas ao GPT-5 decorrem da evolução das expectativas em relação aos lançamentos de modelos de IA. "Acho que muitas pessoas pensaram que o GPT-5 seria mais um momento em que tudo na IA melhoraria, devido a essa marcha em direção à IA AGI. Quando, na verdade, o modelo melhorou em algumas subtarefas importantes", afirma.
Friedman se refere ao período anterior a 2022 como "AEC" — antes da era do ChatGPT —, quando os modelos de IA melhoraram holisticamente. Na era pós-ChatGPT, os novos modelos de IA costumam ser melhores em certos aspectos. "O Claude Sonnet 3.5, por exemplo, foi o único modelo que os dominou em termos de programação. E o Google Gemini se tornou muito bom em revisão de código, para verificar se o código é de alta qualidade", diz Friedman.
A OpenAI também recebeu críticas pela metodologia utilizada para executar seus testes de benchmark e fazer afirmações de desempenho sobre o GPT-5 — embora os testes de benchmark variem consideravelmente em todo o setor. A SemiAnalysis, uma empresa de pesquisa focada no setor de semicondutores e IA, observou que a OpenAI executou apenas 477 dos 500 testes normalmente incluídos no SWE-bench , uma estrutura relativamente nova no setor de IA para testar grandes modelos de linguagem. (Isso se referia ao desempenho geral do modelo, não apenas à codificação.)
A OpenAI afirma que sempre testa seus modelos de IA em um subconjunto fixo de 477 tarefas, em vez das 500 completas no teste de bancada SWE, porque esses 477 testes são os que a empresa validou em sua infraestrutura interna. McCallum também mencionou o cartão de sistema do GPT-5 , que observou que alterações na configuração de verbosidade do modelo podem "levar a variações no desempenho da avaliação".
Kapoor afirma que as empresas de IA de ponta estão, em última análise, enfrentando escolhas difíceis. "Quando os desenvolvedores de modelos treinam novos modelos, eles também introduzem novas restrições e precisam considerar muitos fatores: como os usuários esperam que a IA se comporte e como ela se sai em determinadas tarefas, como codificação agêntica, tudo isso enquanto gerenciam os custos", diz ele. "De certa forma, acredito que a OpenAI sabia que não quebraria todos esses benchmarks, então criou algo que, em geral, agradaria a uma ampla gama de pessoas."
wired