Onderzoekers van MIT en het MIT-IBM Watson AI Lab hebben een nieuwe methode ontwikkeld om robots te helpen navigeren door taalgebaseerde inputs te gebruiken in plaats van visuele data. Deze aanpak, die visuele representaties omzet in tekstuele beschrijvingen, maakt het mogelijk om grote taalmodellen te gebruiken voor complexe navigatietaken.
Traditionele methoden voor robotnavigatie zijn vaak afhankelijk van visuele data, wat intensieve berekeningen en veel trainingsdata vereist. De nieuwe methode van MIT-onderzoekers creëert daarentegen tekstuele bijschriften van de visuele waarnemingen van de robot. Deze bijschriften worden gecombineerd met instructies in natuurlijke taal en ingevoerd in een groot taalmodel, dat vervolgens de acties bepaalt die de robot moet ondernemen.
Hoewel deze taalgebaseerde aanpak niet beter presteert dan technieken die visuele kenmerken gebruiken, is het wel nuttig in situaties waarin onvoldoende visuele data beschikbaar zijn voor training. Door taalgebaseerde inputs te combineren met visuele signalen, verbeterde de navigatieprestaties van de robot. De onderzoekers ontdekten ook dat de methode minder rekenkracht vereist om trainingsdata te genereren en dat de gegenereerde data begrijpelijker zijn voor mensen.
Het onderzoeksteam, geleid door Bowen Pan, presenteert hun bevindingen op de Conference of the North American Chapter of the Association for Computational Linguistics. De nieuwe aanpak biedt voordelen in efficiëntie en flexibiliteit, hoewel er nog verdere verbeteringen nodig zijn om het potentieel volledig te benutten.