Onderzoekers van MIT, Harvard en Cornell University hebben ontdekt dat grote taalmodellen (LLM’s), ondanks hun geavanceerde capaciteiten, geen nauwkeurige interne representaties of ‘wereldmodellen’ opbouwen die de structuur en regels van de echte wereld vatten. Dit gebrek kan leiden tot onverwachte fouten bij vergelijkbare taken.
De studie, onder leiding van Ashesh Rambachan, assistent-professor bij het Laboratory for Information and Decision Systems (LIDS) van MIT, stelt de veronderstelling ter discussie dat LLM’s zoals GPT-4 de wereld begrijpen op basis van hun complexe output, zoals het componeren van poëzie of het geven van routebeschrijvingen.
In het onderzoek testten de onderzoekers een transformer-gebaseerd LLM op taken met stadsnavigatie en regels van bordspellen. Hoewel het model bijna perfecte rijrichtingen kon geven voor New York City, nam de nauwkeurigheid drastisch af bij kleine wijzigingen, zoals afgesloten straten of omleidingen. Onderzoek toonde aan dat de interne kaart van New York in het model fictieve elementen bevatte, zoals niet-bestaande straten en foutieve verbindingen, wat duidt op een gebrekkige representatie van de werkelijke stadsindeling.
De onderzoekers introduceerden twee nieuwe maatstaven om te beoordelen of transformers nauwkeurige wereldmodellen vormen. De eerste maatstaf, sequentie-onderscheiding, beoordeelt of een model verschillende toestanden kan herkennen (zoals verschillende bordconfiguraties in een spel als Othello). De tweede, sequentie-compressie, evalueert of het model identieke toestanden met vergelijkbare vervolgstappen kan herkennen. Bij het toepassen van deze maatstaven op navigatie- en speltaken bleek dat transformers getraind met willekeurige sequenties beter presteerden in het vormen van wereldmodellen dan modellen die op gestructureerde data waren getraind, vermoedelijk door de blootstelling aan een breder scala aan scenario’s.
De bevindingen suggereren dat LLM’s goed zijn in het genereren van aannemelijke antwoorden zonder de onderliggende regels echt te begrijpen. Rambachan benadrukt het belang van kritisch onderzoek naar de capaciteiten van deze modellen, voordat ze worden ingezet voor wetenschappelijk onderzoek of andere gebieden waar precieze regeltoepassing vereist is. In de toekomst willen de onderzoekers hun studies uitbreiden naar taken met deels begrepen regels en wetenschappelijke vraagstukken, met als doel modellen te ontwikkelen die nauwkeuriger gestructureerde kennis kunnen vertegenwoordigen.