Ontwikkelaars zeggen dat GPT-5 een gemengde groep is

15 aug. 2025 13:47

Software-engineers ontdekken dat het nieuwe GPT-5-model van OpenAI hen helpt bij het doordenken van programmeerproblemen, maar dat het model zelf niet veel beter is in het daadwerkelijke programmeren.

Foto-illustratie: Wired Staff/Getty Images

Toen OpenAI vorige week GPT-5 lanceerde , vertelde het softwareontwikkelaars dat het model ontworpen was als een "echte codeer-samenwerker " die uitblinkt in het genereren van hoogwaardige code en het uitvoeren van agentische, of geautomatiseerde, softwaretaken. Hoewel het bedrijf dit niet expliciet zei, leek OpenAI zich rechtstreeks te richten op Anthropic's Claude Code , dat snel de favoriete tool van veel ontwikkelaars is geworden voor AI-ondersteund coderen.

Maar ontwikkelaars vertellen WIRED dat GPT-5 tot nu toe een gemengd verhaal is. Het blinkt uit in technisch redeneren en het plannen van codeertaken, maar sommigen zeggen dat de nieuwste Opus- en Sonnet- redeneermodellen van Anthropic nog steeds betere code produceren. Afhankelijk van welke versie van GPT-5 ontwikkelaars gebruiken – lage, gemiddelde of hoge verbosity – kan het model uitgebreider zijn, wat er soms toe leidt dat het onnodige of redundante coderegels genereert.

Sommige softwareontwikkelaars hebben ook kritiek geuit op de manier waarop OpenAI de codeerprestaties van GPT-5 heeft beoordeeld. Ze stellen dat de gebruikte benchmarks misleidend zijn. Een onderzoeksbureau noemde een grafiek die OpenAI publiceerde en waarin de mogelijkheden van GPT-5 werden opgehemeld een "chart crime".

GPT-5 onderscheidt zich op ten minste één manier: verschillende mensen merkten op dat het, vergeleken met concurrerende modellen, een veel kosteneffectievere optie is. "GPT-5 presteert in onze tests grotendeels beter dan andere AI-modellen, maar is wel echt goedkoop", zegt Sayash Kapoor, promovendus en onderzoeker informatica aan Princeton University, die medeauteur is van het boek AI Snake Oil .

Kapoor zegt dat hij en zijn team benchmarktests hebben uitgevoerd om de mogelijkheden van GPT-5 te evalueren sinds het model vorige week openbaar werd gemaakt. Hij merkt op dat de standaardtest die zijn team gebruikt – die meet hoe goed een taalmodel code kan schrijven die de resultaten van 45 wetenschappelijke artikelen reproduceert – $ 30 kost om uit te voeren met GPT-5 ingesteld op medium of mid-range verbosity. Dezelfde test met Anthropic's Opus 4.1 kost $ 400. Kapoor zegt dat zijn team tot nu toe in totaal ongeveer $ 20.000 heeft uitgegeven aan het testen van GPT-5.

Hoewel de GPT-5 goedkoop is, wijzen Kapoors tests uit dat het model ook minder nauwkeurig is dan sommige concurrenten. Claude's premiummodel behaalde een nauwkeurigheid van 51 procent, gemeten naar het aantal wetenschappelijke artikelen dat het nauwkeurig reproduceerde. De mediumversie van de GPT-5 behaalde een nauwkeurigheid van 27 procent. (Kapoor heeft dezelfde test nog niet uitgevoerd met de GPT-5 High, dus het betreft een indirecte vergelijking, aangezien Opus 4.1 het krachtigste model van Anthropic is.)

Woordvoerder Lindsay McCallum van OpenAI verwees WIRED naar hun blog, waar het bedrijf aangaf GPT-5 te hebben getraind in "real-world coding-taken in samenwerking met vroege testers in startups en ondernemingen". Het bedrijf belichtte ook enkele interne nauwkeurigheidsmetingen voor GPT-5, waaruit bleek dat het GPT-5 "denkmodel", dat meer doelbewust redeneert, de hoogste nauwkeurigheid scoorde van alle OpenAI-modellen. GPT-5 "main" bleef echter achter bij eerder uitgebrachte modellen op OpenAI's eigen nauwkeurigheidsschaal.

Woordvoerder Amie Rotherham van Anthropic zei in een verklaring dat "prestatieclaims en prijsmodellen er vaak anders uitzien zodra ontwikkelaars ze in productieomgevingen gaan gebruiken. Omdat redeneermodellen snel veel tokens kunnen gebruiken tijdens het denken, beweegt de industrie naar een wereld waarin de prijs per uitkomst belangrijker is dan de prijs per token."

Sommige ontwikkelaars zeggen dat ze tot nu toe overwegend positieve ervaringen met GPT-5 hebben gehad. Jenny Wang, ingenieur, investeerder en bedenker van de personal styling agent Alta, vertelde WIRED dat het model complexe codeertaken beter in één keer lijkt te kunnen voltooien dan andere modellen. Ze vergeleek het met OpenAI's o3 en 4o, die ze vaak gebruikt voor codegeneratie en eenvoudige oplossingen "zoals opmaak, of als ik een API-eindpunt wil creëren dat vergelijkbaar is met wat ik al heb", zegt Wang.

Wang zegt dat ze tijdens haar tests met GPT-5 het model heeft gevraagd code te genereren voor een perspagina voor de website van haar bedrijf, inclusief specifieke ontwerpelementen die zouden passen bij de rest van de esthetiek van de site. GPT-5 voltooide de taak in één keer, terwijl Wang voorheen haar prompts tijdens het proces had moeten aanpassen. Er was echter één belangrijke fout: "De URL's werden gehallucineerd", zegt Wang.

Een andere ontwikkelaar, die anoniem wil blijven omdat zijn werkgever hem geen toestemming heeft gegeven om met de pers te praten, zegt dat GPT-5 uitblinkt in het oplossen van diepgaande technische problemen.

Het huidige hobbyproject van de ontwikkelaar is het schrijven van een tool voor programmatische netwerkanalyse, een tool die code-isolatie vereist om veiligheidsredenen. "Ik presenteerde in principe mijn project en een aantal paden die ik overwoog, en GPT-5 nam het allemaal in zich op en gaf een paar aanbevelingen, samen met een realistische tijdlijn", legt de ontwikkelaar uit. "Ik ben onder de indruk."

Een handvol zakelijke partners en klanten van OpenAI, waaronder Cursor, Windsurf en Notion, hebben publiekelijk de programmeer- en redeneervaardigheden van GPT-5 geprezen. (OpenAI nam veel van deze opmerkingen op in zijn eigenblogpost waarin het nieuwe model werd aangekondigd.) Notion deelde op X ook mee dat het "snel en grondig is en complex werk 15 procent beter afhandelt dan andere modellen die we hebben getest."

Maar binnen enkele dagen na de release van GPT-5 kwamen er online klachten van sommige ontwikkelaars binnen. Velen zeiden dat de programmeervaardigheden van GPT-5 achterbleven bij wat een state-of-the-art, ultra-capabel model van 's werelds meest spraakmakende AI-bedrijf had moeten zijn.

"OpenAI's GPT-5 is erg goed, maar het lijkt iets dat al een jaar geleden uitgebracht zou zijn", zegt Kieran Klassen, een ontwikkelaar die een AI-assistent voor e-mailinboxen bouwt. "De programmeermogelijkheden doen me denken aan Sonnet 3.5", voegt hij eraan toe, verwijzend naar een antropisch model dat in juni 2024 werd gelanceerd.

Amir Salihefendić, oprichter van de startup Doist, zei in een bericht op sociale media dat hij GPT-5 in Cursor gebruikt en dat hij het "behoorlijk teleurstellend" vindt en dat het "vooral slecht programmeert". Hij zei dat de release van GPT-4 aanvoelde als een "Llama 4-moment", verwijzend naar Meta's AI-model, dat ook sommige mensen in de AI-community had teleurgesteld.

Over X schreef ontwikkelaar Mckay Wrigley dat GPT-5 een "fenomenaal alledaags chatmodel" is, maar als het op coderen aankomt, "zal ik nog steeds Claude Code + Opus gebruiken."

Andere ontwikkelaars omschrijven GPT-5 als "uitgebreid" – soms nuttig, maar vaak irritant vanwege de langdradigheid. Wang, die over het algemeen tevreden was met het frontend-codeerproject dat ze aan GPT-5 had toegewezen, zegt dat ze wel merkte dat het model "meer redundant was. Er had duidelijk een nettere of kortere oplossing voor kunnen komen." (Kapoor wijst erop dat de omslachtigheid van GPT-5 kan worden aangepast, zodat gebruikers kunnen vragen om minder spraakzaam te zijn of zelfs minder te redeneren in ruil voor betere prestaties of een lagere prijs.)

Itamar Friedman, medeoprichter en CEO van het AI-codeerplatform Qodo, is van mening dat sommige kritiekpunten op GPT-5 voortkomen uit veranderende verwachtingen rond de release van AI-modellen. "Ik denk dat veel mensen dachten dat GPT-5 een nieuw moment zou zijn waarop alles rondom AI zou verbeteren, dankzij de opmars naar AGI. Maar in werkelijkheid verbeterde het model op een paar belangrijke subtaken", zegt hij.

Friedman verwijst naar de periode vóór 2022 als "BCE" – vóór het ChatGPT-tijdperk – toen AI-modellen holistisch verbeterden. In het post-ChatGPT-tijdperk zijn nieuwe AI-modellen vaak beter in bepaalde dingen. "Claude Sonnet 3.5 was bijvoorbeeld het model dat alle andere modellen overtrof op het gebied van coderen. En Google Gemini werd echt goed in codereview, om te controleren of de code van hoge kwaliteit is", zegt Friedman.

OpenAI heeft ook kritiek gekregen vanwege de methodologie die het gebruikte om zijn benchmarktests uit te voeren en prestatieclaims over GPT-5 te doen – hoewel benchmarktests aanzienlijk verschillen binnen de sector. SemiAnalysis, een onderzoeksbureau dat zich richt op de halfgeleider- en AI-sector, merkte op dat OpenAI slechts 477 van de 500 tests uitvoerde die doorgaans zijn opgenomen in SWE-bench , een relatief nieuw AI-framework voor het testen van grote taalmodellen. (Dit betrof de algehele prestaties van het model, niet alleen de codering.)

OpenAI zegt dat het zijn AI-modellen altijd test op een vaste subset van 477 taken in plaats van de volledige 500 in de SWE-benchtest, omdat die 477 tests de tests zijn die het bedrijf heeft gevalideerd op zijn interne infrastructuur. McCallum verwees ook naar de systeemkaart van GPT-5 , die opmerkte dat wijzigingen in de verbosity-instelling van het model "kunnen leiden tot variatie in de evaluatieprestaties".

Kapoor zegt dat grensverleggende AI-bedrijven uiteindelijk voor lastige afwegingen staan. "Wanneer modelontwikkelaars nieuwe modellen trainen, introduceren ze ook nieuwe beperkingen en moeten ze rekening houden met veel factoren: hoe gebruikers verwachten dat de AI zich gedraagt en hoe deze presteert bij bepaalde taken, zoals agentische codering, terwijl ze tegelijkertijd de kosten beheersen", zegt hij. "In zekere zin denk ik dat OpenAI wist dat het niet al die benchmarks zou doorbreken, dus hebben ze iets gemaakt dat over het algemeen een breed scala aan mensen zou aanspreken."

wired

Ontwikkelaars zeggen dat GPT-5 een gemengde groep is

Vergelijkbaar nieuws

Prof. Szuster-Ciesielska over COVID-19: we verwachten een toename van infecties met de nieuwe subvariant van het virus

Paleontoloog: Reptielen- en amfibieënsoorten in de jungles van Europa waren 37 miljoen jaar geleden ongelooflijk divers

Oud pestgenoom ontdekt op resten van schaap

9 beste kussens (2025) getest voor zij-, rug- en buikslapers

Beste matrasaanbiedingen voor Labor Day (2025)