Onderzoekers van het Massachusetts Institute of Technology (MIT), in samenwerking met Harvard University en de University of Washington, hebben een nieuwe methode ontwikkeld voor het trainen van robots en AI. Deze methode, Human Guided Exploration (HuGE) genaamd, maakt gebruik van feedback die via crowdsourcing is verzameld om AI-agenten effectiever te laten leren.
Traditioneel vereist het trainen van AI, zoals het leren openen van een keukenkastje door een robot, het gebruik van reinforcement learning. Dit is een proces van trial-and-error waarbij de AI beloond wordt voor acties die het dichter bij het doel brengen. Hierbij is het vaak nodig dat een menselijke expert een beloningsfunctie ontwerpt en deze voortdurend bijwerkt, een proces dat tijdrovend en inefficiënt kan zijn, vooral bij complexe taken.
De nieuwe aanpak van de onderzoekers vereist geen zorgvuldig ontworpen beloningsfunctie door experts. In plaats daarvan wordt er gebruikgemaakt van feedback van vele niet-expert gebruikers om de agent te begeleiden bij het bereiken van zijn doel. Dit is een significante afwijking van eerdere methoden, die ook probeerden niet-expert feedback te gebruiken, maar vaak faalden vanwege de foutgevoeligheid van deze data.
Een belangrijk kenmerk van HuGE is dat het feedback asynchroon toelaat, wat betekent dat gebruikers van over de hele wereld kunnen bijdragen aan het trainingsproces van de agent. Volgens Pulkit Agrawal, assistent-professor in het MIT Department of Electrical Engineering and Computer Science en leider van het Improbable AI Lab in het MIT Computer Science and Artificial Intelligence Laboratory, is het ontwerpen van een beloningsfunctie één van de meest tijdrovende en uitdagende aspecten bij het ontwerpen van een robotagent.
Het nieuwe systeem zou in de toekomst robots kunnen helpen specifieke taken in een huis te leren uitvoeren zonder dat de eigenaar fysieke voorbeelden hoeft te tonen. De robot zou zelfstandig kunnen verkennen, waarbij de crowdsourced niet-expert feedback zijn verkenning begeleidt.
Deze methode werd getest in zowel gesimuleerde als reële omgevingen, waarbij HuGE effectief taken leerde uitvoeren die lange actiesequenties vereisten, zoals het stapelen van blokken in een bepaalde volgorde of het navigeren door een groot doolhof.