Claude 3.7 Sonnet van Anthropic richt zich op OpenAI en DeepSeek in de volgende grote strijd om AI

Meld u aan voor onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve content over toonaangevende AI-dekking. Meer informatie
Anthropic heeft zojuist een waarschuwingsschot afgevuurd op OpenAI , DeepSeek en de hele AI-industrie met de lancering van Claude 3.7 Sonnet , een model dat gebruikers ongekende controle geeft over hoeveel tijd een AI besteedt aan " denken " voordat hij een reactie genereert. De release, samen met het debuut van Claude Code , een command-line AI-codeeragent, signaleert Anthropics agressieve push in de enterprise AI-markt, een die de manier waarop bedrijven software bouwen en werk automatiseren, zou kunnen veranderen.
De inzet kan niet hoger zijn. Vorige maand verraste DeepSeek de techwereld met een AI-model dat Amerikaanse systemen evenaarde voor een fractie van de kosten , waardoor de aandelen van Nvidia met 17% daalden en er alarmbellen rinkelden over het Amerikaanse AI-leiderschap. Nu wedt Anthropic dat nauwkeurige controle over AI-redeneringen — niet alleen pure snelheid of kostenbesparingen — het een voorsprong zal geven.

"Wij geloven gewoon dat redeneren een kernonderdeel en kerncomponent is van een AI, in plaats van een apart ding waar je apart voor moet betalen om toegang te krijgen," zei Dianne Penn, die productmanagement leidt voor onderzoek bij Anthropic, in een interview met VentureBeat. "Net als mensen moet de AI zowel snelle reacties als complex denken aankunnen. Voor een simpele vraag als 'hoe laat is het?', moet het direct antwoorden. Maar voor complexe taken — zoals het plannen van een reis van twee weken naar Italië, waarbij rekening wordt gehouden met glutenvrije dieetwensen — heeft het meer uitgebreide verwerkingstijd nodig."
"Wij zien redeneren, plannen en zelfcorrectie niet als aparte vaardigheden", voegde ze toe. "Dus dit is in essentie onze manier om dat filosofische verschil uit te drukken... Idealiter zou het model zelf moeten herkennen wanneer een probleem intensiever nadenken vereist en zich moet aanpassen, in plaats van dat gebruikers expliciet verschillende redeneermodi moeten selecteren."

De benchmarkgegevens ondersteunen de ambitieuze visie van Anthropic. In de uitgebreide denkmodus behaalt Claude 3.7 Sonnet een nauwkeurigheid van 78,2% op redeneertaken op graduate-niveau, waarmee hij de nieuwste modellen van OpenAI uitdaagt en DeepSeek R1 overtreft.
Maar de meest onthullende statistieken komen uit toepassingen in de echte wereld: het model scoort 81,2% op het gebied van op de detailhandel gericht gereedschapsgebruik en laat duidelijke verbeteringen zien in het opvolgen van instructies (93,2%) . Dit zijn gebieden waarop concurrenten moeite hebben of geen resultaten hebben gepubliceerd.
Hoewel DeepSeek en OpenAI vooroplopen in traditionele wiskundige benchmarks , laat de uniforme aanpak van Claude 3.7 zien dat één model effectief kan schakelen tussen snelle reacties en diepgaande analyses. Hierdoor hoeven bedrijven mogelijk geen aparte AI-systemen meer te onderhouden voor verschillende soorten taken.
De timing van de release is cruciaal. De opkomst van DeepSeek vorige maand stuurde schokgolven door Silicon Valley, wat aantoonde dat geavanceerde AI-redeneringen bereikt konden worden met veel minder computerkracht dan eerder werd gedacht. Dit daagde fundamentele aannames over AI-ontwikkelingskosten en infrastructuurvereisten uit. Toen DeepSeek zijn resultaten publiceerde, daalde de aandelenkoers van Nvidia met 17% in één dag — investeerders vroegen zich plotseling af of dure chips echt essentieel waren voor geavanceerde AI.
Voor bedrijven kan de inzet niet hoger zijn. Bedrijven spenderen miljoenen aan het integreren van AI in hun activiteiten, weddend op welke aanpak zal domineren. Het hybride model van Anthropic biedt een aantrekkelijk middenpad: de mogelijkheid om AI-prestaties nauwkeurig af te stemmen op de taak die voorhanden is, van directe reacties van de klantenservice tot complexe financiële analyses. Het systeem handhaaft de eerdere prijsstelling van Anthropic van $ 3 per miljoen inputtokens en $ 15 per miljoen outputtokens, zelfs met toegevoegde redeneringsfuncties.

"Onze klanten proberen resultaten te behalen voor hun klanten", legt Michael Gerstenhaber, Anthropic's head of platform, uit. "Door hetzelfde model te gebruiken en hetzelfde model op verschillende manieren te gebruiken, kan iemand als Thompson Reuters juridisch onderzoek doen, en kunnen onze coderingspartners zoals Cursor of GitHub applicaties ontwikkelen en die doelen bereiken."
De hybride aanpak van Anthropic vertegenwoordigt zowel een technische evolutie als een strategische zet. Terwijl OpenAI aparte modellen voor verschillende mogelijkheden onderhoudt en DeepSeek zich richt op kostenefficiëntie , streeft Anthropic naar uniforme systemen die zowel routinematige taken als complexe redeneringen aankunnen. Het is een filosofie die de manier waarop bedrijven AI inzetten, kan veranderen, waardoor de noodzaak om met meerdere gespecialiseerde modellen te jongleren, wordt geëlimineerd.
Anthropic onthulde vandaag ook Claude Code , een command-line tool waarmee ontwikkelaars complexe engineeringtaken rechtstreeks aan AI kunnen delegeren. Het systeem vereist menselijke goedkeuring voordat codewijzigingen worden doorgevoerd, wat de groeiende focus van de industrie op verantwoorde AI-ontwikkeling weerspiegelt.

“Je moet de veranderingen die Claude maakt nog steeds accepteren. Je bent een reviewer met de handen aan het stuur,” merkte Penn op. “Er is in wezen een soort checklist die je in wezen moet accepteren zodat het model bepaalde acties kan ondernemen.”
De aankondigingen komen te midden van intense concurrentie in AI-ontwikkeling. Stanford-onderzoekers hebben onlangs een open-source redeneermodel gemaakt voor minder dan $ 50, terwijl Microsoft zojuist het o3-mini-model van OpenAI in Azure heeft geïntegreerd. Het succes van DeepSeek heeft ook nieuwe benaderingen van AI-ontwikkeling aangewakkerd, waarbij sommige bedrijven modeldistillatietechnieken onderzoeken die de kosten verder kunnen verlagen.

Penn illustreerde de dramatische vooruitgang in AI-mogelijkheden met een onverwacht voorbeeld: "We hebben verschillende versies van Claude gevraagd om Pokémon te spelen... Deze versie heeft het helemaal tot Vermilion City geschopt, meerdere Pokémon gevangen en zelfs gemalen om te levelen. Het heeft de juiste Pokémon om tegen rivalen te vechten."
"Ik denk dat je zult zien dat we blijven innoveren en de kwaliteit van redeneren blijven pushen, en dat we dingen als dynamisch redeneren pushen," legde Penn uit. "We hebben het altijd gezien als een kernonderdeel van de intelligentie, in plaats van iets aparts."
De echte test van Anthropic's aanpak zal komen van de acceptatie door bedrijven. Hoewel het spelen van Pokémon triviaal lijkt, toont het het soort adaptieve intelligentie dat bedrijven nodig hebben: AI die zowel routinematige handelingen als complexe strategische beslissingen aankan zonder te schakelen tussen gespecialiseerde modellen. Eerdere versies van Claude konden niet verder navigeren dan de startstad van een game. De nieuwste versie bouwt strategieën, beheert bronnen en neemt tactische beslissingen — mogelijkheden die de complexiteit van echte zakelijke uitdagingen weerspiegelen.
Voor zakelijke klanten kan dit het verschil betekenen tussen het onderhouden van meerdere AI-systemen voor verschillende taken en het implementeren van één, capabelere oplossing. De komende maanden zullen uitwijzen of Anthropics inzet op unified AI reasoning de zakelijke markt zal hervormen of een nieuw experiment zal worden in de snelle evolutie van de industrie.
Als u indruk wilt maken op uw baas, dan bent u bij VB Daily aan het juiste adres. Wij geven u de inside scoop over wat bedrijven doen met generatieve AI, van regelgevende verschuivingen tot praktische implementaties, zodat u inzichten kunt delen voor maximale ROI.
Lees ons privacybeleid
Bedankt voor uw inschrijving. Bekijk hier meer VB-nieuwsbrieven .
Er is een fout opgetreden.

venturebeat