"Verschrikkelijk indrukwekkend": AI kan de beste studenten ter wereld bijhouden bij het oplossen van wiskundige puzzels


Er zijn leerlingen die een hekel hebben aan wiskundetoetsen. Voor een kleine minderheid vormen de problemen op de Internationale Wiskunde Olympiade (IMO) echter een uitdaging. Reguliere schoolmaterialen zijn niet te vinden in deze wedstrijd. En hulpmiddelen zijn verboden. Hoofdrekenen? Volkomen nutteloos.
NZZ.ch vereist JavaScript voor belangrijke functies. Uw browser of advertentieblokkering blokkeert dit momenteel.
Pas de instellingen aan.
In wat misschien wel de zwaarste wiskundewedstrijd ter wereld is, moeten deelnemers abstract wiskundig redeneren gebruiken om stellingen uit de algebra, meetkunde, combinatoriek en getaltheorie te bewijzen. Uiteindelijk neemt slechts de helft van de deelnemers een medaille mee naar huis. Alleen de allerbesten winnen goud.
De IMO is al lang een maatstaf voor AI-bedrijven. Hun doel: een AI-model dat aansluit bij de probleemoplossende vaardigheden van de meest getalenteerde jongeren.
De IMO van dit jaar in Australië was in die zin historisch: voor het eerst in de meer dan 60-jarige geschiedenis van de competitie behaalde kunstmatige intelligentie een score die voldoende was voor een gouden medaille – iets wat slechts zo'n tien procent van de IMO-deelnemers haalt. En nu behaalden twee nog niet eerder gepubliceerde AI-modellen, één van Google Deepmind en één van Open AI, dit ook. Beide voltooiden vijf van de zes taken en behaalden daarmee 35 van de maximaal te behalen 42 punten. 26 studenten behaalden een nog hogere score. Vijf deelnemers kregen zelfs een perfect cijfer.
"Ik ben onder de indruk. Dit is echt een belangrijke prestatie", zegt wiskundige Daniel Litt, hoogleraar aan de Universiteit van Toronto, in een interview. Hij is niet de enige die enthousiast is. Ook de prominente AI-scepticus Gary Marcus betwijfelde in zijn blog de relevantie van de resultaten, maar noemde de prestaties van de AI "verschrikkelijk indrukwekkend".
Bij Google Deepmind en Open AI vierden de bedrijfsleiders zelf de mijlpaal op het X-platform (voorheen Twitter).
We behaalden een gouden medaille op de IMO-competitie van 2025 met een algemeen redeneersysteem! Ter verduidelijking: dit is een LLM met wiskunde als hoofdactiviteit en geen specifiek formeel wiskundig systeem. Het is onderdeel van onze belangrijkste inspanning om algemene intelligentie te bereiken.
toen we voor het eerst openai begonnen,… https://t.co/X46rspI4l6
— Sam Altman (@sama) 19 juli 2025
"Ik weet zeker dat 99,999 procent van de mensen geen enkele opgave van de Wiskunde Olympiade zou kunnen oplossen", zegt Jasper Dekoninck. Hij doet onderzoek aan het ETH AI Center en promoveert in de informatica. Dekoninck maakt deel uit van een team dat de wiskundige mogelijkheden van AI-modellen onderzoekt. De onderzoeksgroep liet vijf openbaar beschikbare AI-modellen de opgaven van de Wiskunde Olympiade oplossen. Geen van hen behaalde zelfs maar de 15 punten die nodig zijn voor een bronzen medaille.
Dekoninck vindt het des te verbazingwekkender dat de nog steeds geheime modellen van Google en Open AI nu zoveel beter zijn. Op dit moment, zegt hij, kan men alleen maar speculeren over welke innovaties tot deze prestatiesprong hebben geleid.
Succes door ‘parallel denken’Google Deepmind onthult enkele technische details in een blogpost . Het nieuwe model is een generalistische taal-AI die vrijwel elke gebruikersvraag kan beantwoorden, schrijven de Google-onderzoekers. Vorig jaar behaalde Google slechts de zilveren medaille bij de IMO met een AI-systeem dat specifiek voor wiskunde is ontworpen.
Nieuw aan de AI van dit jaar, genaamd "Deep Think", is dat deze gebaseerd is op "parallel denken". In tegenstelling tot conventionele "denkende" AI-modellen, die een lineaire gedachtegang simuleren, kan het nieuwe model meerdere oplossingsmogelijkheden tegelijk verkennen en vervolgens de beste selecteren.
Over het model van Open AI zei CEO Sam Altmann alleen dat het een "experimenteel model" was dat nog maanden verwijderd was van een commercieel product. Hij voegde er echter aan toe dat dit model deel uitmaakt van de langetermijninspanningen van zijn bedrijf om kunstmatige algemene intelligentie (AI) te ontwikkelen. Dit verwijst naar een AI die qua cognitieve vaardigheden gelijkwaardig is aan de beste menselijke specialisten.
Twijfelachtige testresultaten als reclamemateriaalVoor AI-bedrijven zijn examens zoals de IMO een populaire showcase. Ze gebruiken deze tests om de voortgang van hun nieuwste modellen aan te prijzen. Zo pochte Elon Musk er onlangs over dat Grok 4 – het nieuwste model van zijn AI-bedrijf XAI – alle andere AI-modellen overtrof op het zogenaamde "Laatste Examen van de Mensheid". Dit maakt Grok 4 intelligenter dan welke promovendus dan ook, ongeacht de discipline.
Maar dergelijke tests zijn controversieel vanwege het vaak gebrek aan transparantie. Het is niet altijd duidelijk hoeveel rekenkracht de AI besteedt aan het oplossen van de taken, of er mensen op de achtergrond assisteren en of de testtaken al bekend waren en in de trainingsdata van de AI waren opgenomen. Een ander probleem is dat de details van de AI-modellen zelf vaak geheim blijven.
Deze keer kreeg Open AI de meeste kritiek. Het bedrijf stond de IMO-organisatoren niet toe om hun AI-oplossingen te beoordelen, zoals Google Deepmind dat wel deed. In plaats daarvan maakte Open AI gebruik van onafhankelijke examinatoren die minstens één medaille hadden gewonnen bij de IMO. Bovendien rapporteerde Open AI zijn AI-resultaten al voordat de IMO-organisatoren de officiële medaillewinnaars bekendmaakten, waardoor de daadwerkelijke hoofdrolspelers voor hun reclamedoeleinden in de schijnwerpers werden gezet.
Zelfs in het geval van Google DeepMind verklaarden de organisatoren van de IMO in een persbericht dat ze alleen de juistheid van de oplossingen konden certificeren, niet de gebruikte methodologie, omdat de bedrijven deze niet openbaar hadden gemaakt. Prominente wiskundigen bekritiseerden ook de ondoorzichtige praktijken van de AI-bedrijven.
Fields-medaillewinnaar Terence Tao doorbreekt de hype rond de OpenAI IMO Gold-prestaties met een typisch goed afgemeten perspectief. pic.twitter.com/luYWAPt5Wz
— Cyril Gorlla (@CyrilGolla) 19 juli 2025
AI-onderzoeker Frieder Simon van de Universiteit van Oxford sluit zich aan bij deze kritiek. Simon organiseert de AIMO, een Wiskunde Olympiade exclusief voor AI-modellen. Hij streeft naar meer transparantie. De AIMO-opdrachten liggen op het niveau van een nationale Wiskunde Olympiade voor mensen, net onder de moeilijkheidsgraad van de internationale competitie. Volgens Simon moeten AIMO-winnaars de code achter hun AI en details over de gebruikte computerhardware bekendmaken. Dit garandeert reproduceerbaarheid van de resultaten.
Omdat hij de voortgang van recente AI-modellen bij AIMO al had gezien, was hij niet verrast door de prestaties van de nieuwste modellen van Google en Open AI, zegt Simon. In april behaalde de winnende AI bij AIMO 34 van de 50 punten. Deze resultaten zijn intern gevalideerd, maar nog niet gepubliceerd.
Toenemende fusie van AI en wiskundeSimon is er ook van overtuigd dat AI steeds beter wordt in wiskunde, ondanks het bekritiseerde gebrek aan transparantie. Betekent dit dat ook wiskundigen bang moeten zijn om door machines te worden vervangen? Deskundigen verschillen hierover van mening.
"Angst is een groot woord", zegt Oxford-onderzoeker Simon. Toch is hij ervan overtuigd dat AI steeds meer gebieden van de wiskunde zal binnendringen.
Volgens Simon worden er momenteel steeds meer AI-tools ontwikkeld om wiskundigen te ondersteunen bij hun werk. AI kan bewijzen nog niet begrijpen of verklaren, zelfs als ze die zelf heeft geproduceerd. Maar AI-ontwikkeling zal deze kloof ooit dichten, zegt hij. Simon is er zeker van: "In een wereld waar AI steeds sneller samensmelt met wiskunde, lopen veel wiskundigen het risico overbodig te worden. En dit geldt niet alleen voor wiskundigen, maar voor alle kenniswerkers."
Worden menselijke wiskundigen een maatschappelijke luxe?Een goed resultaat op de Wiskunde Olympiade is echter waarschijnlijk niet voldoende. Wiskundeprofessor Daniel Litt wijst erop dat de vaardigheden die op de Wiskunde Olympiade worden getoetst, weinig te maken hebben met wat een onderzoekswiskundige moet bereiken. Litt gelooft dat AI nog lang niet in staat zal zijn om hoogwaardig wiskundig onderzoek uit te voeren.
Litt zegt echter dat hij niet bang is voor AI-technologie. Integendeel: "Ik kijk uit naar AI-tools die me moeilijke wiskundige concepten kunnen leren en af en toe een deel van het werk voor me kunnen doen als het gaat om het bewijzen van een probleem."
En wat als AI zijn werk op een dag efficiënter doet dan welke wiskundige dan ook? "Dan staan we voor een antropologische vraag", zegt Litt. "We zullen als samenleving moeten beslissen of we ons menselijke wiskundigen willen veroorloven."
nzz.ch