Entwickler sagen, GPT-5 sei ein gemischtes Paket

Als OpenAI letzte Woche GPT-5 vorstellte , teilte das Unternehmen Softwareentwicklern mit, das Modell sei als „echter Programmier-Kollaborateur “ konzipiert, der sich durch die Generierung von qualitativ hochwertigem Code und die Ausführung agentenbasierter, also automatisierter Softwareaufgaben auszeichnet. Obwohl das Unternehmen dies nicht explizit sagte, schien OpenAI direkt auf Anthropics Claude Code zu zielen, der sich schnell zum bevorzugten Tool vieler Entwickler für KI-gestütztes Programmieren entwickelt hat.
Entwickler berichten WIRED jedoch, dass GPT-5 bisher ein gemischtes Ergebnis liefert. Zwar glänzt es beim technischen Denken und Planen von Programmieraufgaben, doch manche behaupten, dass Anthropics neueste Opus- und Sonnet -Modelle immer noch besseren Code produzieren. Je nachdem, welche GPT-5-Version die Entwickler verwenden – niedrige, mittlere oder hohe Ausführlichkeit – kann das Modell aufwändiger sein, was manchmal dazu führt, dass unnötige oder redundante Codezeilen generiert werden.
Einige Softwareentwickler kritisierten zudem die Bewertung der Programmierleistung von GPT-5 durch OpenAI und argumentierten, die verwendeten Benchmarks seien irreführend. Ein Forschungsunternehmen bezeichnete eine von OpenAI veröffentlichte Grafik , die mit den Fähigkeiten von GPT-5 prahlte, als „Diagrammverbrechen“.
GPT-5 sticht zumindest in einem Punkt hervor: Mehrere Personen bemerkten, dass es im Vergleich zu Konkurrenzmodellen eine deutlich kostengünstigere Option ist. „GPT-5 wird in unseren Tests von anderen KI-Modellen meist übertroffen, ist aber wirklich günstig“, sagt Sayash Kapoor, Informatik-Doktorand und Forscher an der Princeton University, der das Buch „AI Snake Oil“ mitverfasst hat.
Kapoor sagt, er und sein Team hätten Benchmarktests durchgeführt, um die Fähigkeiten von GPT-5 zu bewerten, seit das Modell letzte Woche veröffentlicht wurde. Er weist darauf hin, dass der Standardtest, den sein Team verwendet – er misst, wie gut ein Sprachmodell Code schreiben kann, der die Ergebnisse von 45 wissenschaftlichen Arbeiten reproduziert – 30 Dollar kostet, wenn GPT-5 auf mittlere Ausführlichkeit eingestellt ist. Der gleiche Test mit Anthropics Opus 4.1 kostet 400 Dollar. Insgesamt hat sein Team laut Kapoor bisher rund 20.000 Dollar für GPT-5-Tests ausgegeben.
Obwohl GPT-5 günstig ist, zeigen Kapoors Tests , dass das Modell auch weniger genau ist als einige seiner Konkurrenten. Claudes Premium-Modell erreichte eine Genauigkeit von 51 Prozent, gemessen an der Anzahl der wissenschaftlichen Arbeiten, die es korrekt reproduzierte. Die mittlere Version von GPT-5 erreichte eine Genauigkeit von 27 Prozent. (Kapoor hat den gleichen Test mit GPT-5 High noch nicht durchgeführt, daher handelt es sich um einen indirekten Vergleich, da Opus 4.1 das leistungsstärkste Modell von Anthropic ist.)
OpenAI-Sprecherin Lindsay McCallum verwies WIRED auf den Blog des Unternehmens, in dem es hieß, GPT-5 sei „in Zusammenarbeit mit frühen Testern aus Startups und Unternehmen an realen Programmieraufgaben trainiert“ worden. Das Unternehmen hob auch einige seiner internen Genauigkeitsmessungen für GPT-5 hervor . Diese zeigten, dass das GPT-5-Modell „Thinking“, das bewusstere Schlussfolgerungen zieht, von allen OpenAI-Modellen die höchste Genauigkeit erzielte. GPT-5 „Main“ blieb jedoch auf OpenAIs eigener Genauigkeitsskala hinter zuvor veröffentlichten Modellen zurück.
Anthropic-Sprecherin Amie Rotherham erklärte in einer Erklärung: „Leistungsansprüche und Preismodelle sehen oft anders aus, sobald Entwickler sie in Produktionsumgebungen einsetzen. Da Denkmodelle beim Denken schnell viele Token verbrauchen können, bewegt sich die Branche in eine Welt, in der der Preis pro Ergebnis wichtiger ist als der Preis pro Token.“
Einige Entwickler berichten, dass sie bisher überwiegend positive Erfahrungen mit GPT-5 gemacht haben. Jenny Wang, Ingenieurin, Investorin und Erfinderin des persönlichen Styling-Agenten Alta, erklärte gegenüber WIRED, das Modell scheine komplexe Programmieraufgaben besser in einem Durchgang erledigen zu können als andere Modelle. Sie verglich es mit OpenAIs o3 und 4o, die sie häufig zur Codegenerierung und für einfache Korrekturen nutzt, „wie zum Beispiel zur Formatierung oder wenn ich einen API-Endpunkt ähnlich dem, den ich bereits habe, erstellen möchte“, so Wang.
Bei ihren Tests mit GPT-5 ließ Wang das Modell Code für eine Presseseite ihrer Firmenwebsite generieren, inklusive spezifischer Designelemente, die zur Ästhetik der restlichen Website passen. GPT-5 erledigte die Aufgabe in einem Durchgang, während Wang früher ihre Eingaben während des Prozesses hätte überarbeiten müssen. Allerdings gab es einen gravierenden Fehler: „Es halluzinierte die URLs“, sagt Wang.
Ein anderer Entwickler, der unter der Bedingung der Anonymität sprach, weil sein Arbeitgeber ihm nicht gestattet hatte, mit der Presse zu sprechen, sagt, GPT-5 sei hervorragend darin, tiefgreifende technische Probleme zu lösen.
Das aktuelle Hobbyprojekt des Entwicklers ist die Entwicklung eines programmatischen Netzwerkanalyse-Tools, das aus Sicherheitsgründen eine Code-Isolierung erfordert. „Ich habe im Wesentlichen mein Projekt und einige meiner Überlegungen vorgestellt, und GPT-5 hat alles aufgenommen und einige Empfehlungen sowie einen realistischen Zeitplan abgegeben“, erklärt der Entwickler. „Ich bin beeindruckt.“
Einige Unternehmenspartner und Kunden von OpenAI, darunter Cursor, Windsurf und Notion, haben sich öffentlich für die Programmier- und Argumentationsfähigkeiten von GPT-5 verbürgt. (OpenAI hat viele dieser Bemerkungen in seinem eigenenBlogbeitrag zur Ankündigung des neuen Modells veröffentlicht.) Notion teilte auf X außerdem mit, dass es „schnell und gründlich ist und komplexe Aufgaben 15 Prozent besser bewältigt als andere von uns getestete Modelle“.
Doch schon wenige Tage nach der Veröffentlichung von GPT-5 meldeten sich einige Entwickler online mit Beschwerden zu Wort. Viele meinten, die Programmierfähigkeiten von GPT-5 seien für das angeblich hochmoderne, extrem leistungsfähige Modell des weltweit angesagtesten KI-Unternehmens nicht mehr zeitgemäß.
„OpenAIs GPT-5 ist sehr gut, aber es wirkt, als wäre es schon vor einem Jahr erschienen“, sagt Kieran Klassen, ein Entwickler, der einen KI-Assistenten für E-Mail-Postfächer entwickelt. „Seine Programmierfähigkeiten erinnern mich an Sonnet 3.5“, fügt er hinzu und meint damit ein anthropisches Modell, das im Juni 2024 auf den Markt kommen soll.
Amir Salihefendić, Gründer des Startup-Unternehmens Doist, erklärte in einem Social-Media-Beitrag , dass er GPT-5 in Cursor verwendet und es „ziemlich enttäuschend“ finde und dass es „besonders schlecht für die Programmierung“ sei. Er sagte, die Veröffentlichung von GPT-4 fühle sich wie ein „Llama 4-Moment“ an und bezog sich dabei auf Metas KI-Modell, das auch einige Leute in der KI-Community enttäuscht hatte.
Zu X schrieb Entwickler Mckay Wrigley, dass GPT-5 ein „phänomenales Chat-Modell für den Alltag“ sei, aber wenn es ums Programmieren gehe, „werde ich weiterhin Claude Code + Opus verwenden.“
Andere Entwickler beschreiben GPT-5 als „erschöpfend“ – manchmal hilfreich, aber oft irritierend in seiner Weitschweifigkeit. Wang, die mit dem Frontend-Coding-Projekt, das sie GPT-5 zugewiesen hatte, insgesamt zufrieden war, sagt, ihr sei aufgefallen, dass das Modell „redundanter“ sei. „Es hätte eindeutig eine sauberere oder kürzere Lösung geben können.“ (Kapoor weist darauf hin, dass die Ausführlichkeit von GPT-5 angepasst werden kann, sodass Benutzer verlangen können, dass es weniger gesprächig ist oder sogar weniger Argumente verwendet, um im Gegenzug eine bessere Leistung oder einen günstigeren Preis zu erzielen.)
Itamar Friedman, Mitbegründer und CEO der KI-Codierungsplattform Qodo, glaubt, dass ein Teil der Kritik an GPT-5 auf die gestiegenen Erwartungen an die Veröffentlichung von KI-Modellen zurückzuführen ist. „Ich glaube, viele dachten, GPT-5 würde aufgrund des Vormarsches hin zu AGI einen weiteren Moment darstellen, in dem sich alles rund um KI verbessern würde. Tatsächlich hat sich das Modell jedoch bei einigen wichtigen Teilaufgaben verbessert“, sagt er.
Friedman bezeichnet die Zeit vor 2022 als „BCE“ – vor der ChatGPT-Ära –, als KI-Modelle ganzheitlich verbessert wurden. In der Post-ChatGPT-Ära sind neue KI-Modelle oft in bestimmten Bereichen besser. „Claude Sonnet 3.5 war beispielsweise das einzige Modell, das in Sachen Programmierung alle anderen übertraf. Und Google Gemini wurde wirklich gut bei der Codeüberprüfung, um zu überprüfen, ob der Code qualitativ hochwertig ist“, sagt Friedman.
OpenAI ist auch für die Methodik, mit der es seine Benchmarktests durchführt und Leistungsaussagen zu GPT-5 macht, in die Kritik geraten – obwohl Benchmarktests branchenweit stark variieren. SemiAnalysis, ein auf den Halbleiter- und KI-Sektor spezialisiertes Forschungsunternehmen, stellte fest , dass OpenAI nur 477 der 500 Tests durchführte, die typischerweise in SWE-bench enthalten sind, einem relativ neuen Framework der KI-Branche zum Testen großer Sprachmodelle. (Dies bezog sich auf die Gesamtleistung des Modells, nicht nur auf die Codierung.)
OpenAI gibt an, seine KI-Modelle stets an einer festen Teilmenge von 477 Aufgaben zu testen und nicht an den vollen 500 im SWE-Bench-Test, da diese 477 Tests diejenigen sind, die das Unternehmen auf seiner internen Infrastruktur validiert hat. McCallum verwies auch auf die Systemkarte von GPT-5 , in der darauf hingewiesen wurde, dass Änderungen der Ausführlichkeitseinstellungen des Modells „zu Abweichungen in der Evaluierungsleistung führen können“.
Kapoor sagt, dass Pionier-KI-Unternehmen letztlich vor schwierigen Kompromissen stehen. „Wenn Modellentwickler neue Modelle trainieren, führen sie auch neue Einschränkungen ein und müssen viele Faktoren berücksichtigen: Welches Verhalten erwarten die Nutzer von der KI und wie gut sie bestimmte Aufgaben wie Agentic Coding erfüllt – und das alles bei gleichzeitiger Kostenkontrolle“, sagt er. „Ich glaube, OpenAI wusste in gewisser Weise, dass es nicht alle diese Benchmarks brechen würde, und hat daher etwas entwickelt, das einer breiten Masse gefallen würde.“
wired