Onderzoekers van de Universiteit van Tokio hebben een humanoïde robot ontwikkeld, Alter3, die in staat is om spontane bewegingen te genereren met behulp van het Large Language Model (LLM) GPT-4. Het project, geleid door Takahide Yoshida, Atsushi Masumori en Takashi Ikegami, is een samenwerking tussen de afdeling Algemene Systeemwetenschappen van de universiteit en Alternative Machine Inc.
Door GPT-4 te integreren met Alter3 kunnen de onderzoekers de robot bewegingen laten uitvoeren op basis van verbale instructies. In tegenstelling tot traditionele robotbesturing, waarbij gedetailleerde handmatige programmering voor elke beweging nodig is, kan Alter3 menselijke acties die in natuurlijke taal worden beschreven, vertalen naar bewegingen. Hierdoor kan de robot verschillende poses aannemen, zoals een selfie maken of doen alsof hij een geest is, zonder dat er specifieke programmering van elke lichaamsdeel vereist is.
Het systeem demonstreert zero-shot learning, waarbij de robot nieuwe bewegingen kan genereren vanuit taalinvoer zonder dat herhaaldelijke aanpassingen nodig zijn. Alter3 kan complexe acties uitvoeren, zoals het nadoen van het spelen van metalmuziek of doen alsof hij een slang is, op basis van verbale omschrijvingen.
Voorheen was het nodig om dergelijke robots handmatig nauwkeurig af te stellen op meerdere bewegingsassen. Dankzij de integratie van GPT-4 kan de robot nu reageren op natuurlijke taalprotocollen, bekend als Chain of Thought (CoT), waardoor hij handelingen kan uitvoeren zonder vooraf gedefinieerde leercycli.
Linguïstische feedback voor bewegingsaanpassing
Alter3 maakt ook gebruik van linguïstische feedback om zijn bewegingen te verfijnen. Hoewel de robot zijn acties niet visueel kan beoordelen, kunnen gebruikers verbale suggesties geven, zoals het verzoek om de arm hoger op te tillen bij het maken van een selfie. De robot verwerkt deze instructies, past zijn bewegingscode aan en slaat de verbeterde volgorde op in zijn bewegingsgeheugen voor toekomstig gebruik.
Het systeem wordt ondersteund door een database die deze herziende bewegingen als gelabelde acties opslaat, zodat de robot ze indien nodig kan ophalen. Alter3’s vermogen om bewegingen te verbeteren op basis van feedback biedt een efficiëntere methode om zijn prestaties in de loop van de tijd te verbeteren.
De onderzoekers evalueerden het vermogen van de robot om bewegingen te genereren door negen verschillende acties, die door GPT-4 waren gecreëerd, te vergelijken met videobeelden van willekeurige bewegingen. De deelnemers beoordeelden de bewegingen op een schaal van vijf punten, en de resultaten toonden aan dat de door GPT-4 gegenereerde acties hoger werden beoordeeld op expressiviteit dan de bewegingen in de controlegroep.
Alter3 was in staat zowel menselijke acties uit te voeren, zoals het maken van selfies en het drinken van thee, als niet-menselijke bewegingen, zoals doen alsof hij een geest of een slang is. De robot toonde ook het vermogen om emotionele signalen, zoals vreugde of verlegenheid, weer te geven op basis van verbale instructies.
Toepassingen
De ontwikkeling van Alter3 biedt mogelijkheden om de interactie tussen mens en robot te verbeteren, met mogelijke toepassingen in diverse sectoren, waaronder entertainment, zorg en dienstverlening. Het onderzoeksteam merkte op dat de architectuur van Alter3 kan worden aangepast voor andere humanoïde robots, wat de toepasbaarheid ervan mogelijk zou kunnen vergroten.