‘AI scoort beter dan mens in redeneren’

door Marco van der Hoeven 2 januari 2025

geschreven door Marco van der Hoeven 2 januari 2025

OpenAI’s nieuwe o3-model is de eerste AI die beter presteert dan mensen op de ARC-AGI-test (Abstraction and Reasoning Corpus for Artificial General Intelligence). Het model behaalde een score van 76%, iets hoger dan het gemiddelde van menselijke deelnemers, die net boven de 75% uitkomen. Deze prestatie werd officieel bevestigd in een evaluatie uitgevoerd door OpenAI en François Chollet, de bedenker van de ARC-AGI en onderzoeker bij Google.

De ARC-AGI is ontworpen om de flexibiliteit en het aanpassingsvermogen van AI te testen. In plaats van taal te gebruiken, richt deze benchmark zich op abstract redeneren en het herkennen van visuele patronen. Het o3-model lijkt een geheel nieuwe benadering te hanteren vergeleken met eerdere GPT-modellen, wat het in staat stelt om deze complexe uitdagingen beter aan te pakken.

Chollet noemt de prestaties van o3 een “sprong in AI-capaciteiten” en vermoedt dat de innovatie schuilt in de architectuur van het model. Dit zou het mogelijk maken om complexe zoekprocessen uit te voeren tijdens het oplossen van problemen. Tegelijkertijd benadrukt hij dat de hoge scores van o3 deels te danken zijn aan training met ARC-gerelateerde data, wat vragen oproept over hoe het model zou presteren zonder die voorbereiding.

Hoewel dit een belangrijke mijlpaal is, waarschuwen zowel Chollet als OpenAI dat het o3-model nog geen Artificial General Intelligence (AGI) vertegenwoordigt. Het model faalt nog steeds op enkele eenvoudige taken binnen de ARC-AGI-test, wat laat zien dat het fundamenteel anders werkt dan menselijk denken. OpenAI is van plan om eind januari 2025 een “mini”-versie van o3 uit te brengen, met een volledige versie die later zal volgen.