Onderzoekers van MIT hebben een model ontwikkeld dat de ruimtelijke perceptie van robots flink zou verbeteren. Met 3D Dynamic Scene Graphs kan een robot snel een 3D-kaart van zijn omgeving genereren die ook objecten en hun semantische labels bevat (bijvoorbeeld een stoel of een tafel), evenals mensen, kamers, muren en andere constructies in de omgeving van de robot.
De technologie komt voort uit de visie van MIT-ingenieurs dat robots uitermate bruikbaar zijn als hulp in huis, die in staat zijn om Alexa-achtige commando’s van hoog niveau te volgen, zoals ‘Ga naar de keuken en haal een kopje koffie voor me’. Om dergelijke taken op hoog niveau uit te voeren, geloven onderzoekers dat robots hun fysieke omgeving moeten kunnen waarnemen zoals mensen dat doen.
Mentaal model
‘Om een beslissing in de wereld te kunnen nemen, moet je een mentaal model van de omgeving om je heen hebben’, zegt Luca Carlone, assistent-professor lucht- en ruimtevaart aan het MIT. ‘Dit is iets zo moeilijk voor mensen. Maar voor robots is het een pijnlijk moeilijk probleem, waarbij het gaat om het transformeren van pixelwaarden die ze door een camera zien, in een begrip van de wereld. “
Beweging
Nu hebben Carlone en zijn studenten een representatie van ruimtelijke perceptie voor robots ontwikkeld die is gemodelleerd naar de manier waarop mensen de wereld waarnemen en navigeren. Het model stelt de robot ook in staat om relevante informatie uit de 3D-kaart te halen, de locatie van objecten en kamers te zoeken, of de beweging van mensen op zijn pad.
Beslsissingen
“Deze gecomprimeerde weergave van de omgeving is nuttig omdat het onze robot in staat stelt om snel beslissingen te nemen en zijn pad te plannen”, zegt Carlone. ‘Dit is niet ver verwijderd van wat we als mens doen. Als u een pad van uw huis naar MIT moet plannen, plant u niet elke positie die u moet innemen. Je denkt gewoon aan het niveau van straten en oriëntatiepunten, waardoor je je route sneller kunt plannen. ”
Rampsite
Naast hulp in huis, zegt Carlone dat robots die dit nieuwe soort mentale model van de omgeving aannemen, ook geschikt kunnen zijn voor andere banen op hoog niveau, zoals zij aan zij werken met mensen op een fabrieksvloer of het verkennen van een rampsite voor overlevenden.
Een mappingmix
Op dit moment zijn robotvisie en navigatie voornamelijk langs twee routes gevorderd: 3D-mapping waarmee robots hun omgeving in drie dimensies kunnen reconstrueren terwijl ze in realtime verkennen; en semantische segmentatie, die een robot helpt om kenmerken in zijn omgeving te classificeren als semantische objecten, zoals een auto versus een fiets, wat tot nu toe meestal op 2D-beelden gebeurt.
Het nieuwe model van ruimtelijke perceptie van Carlone en Rosinol is het eerste dat in realtime een 3D-kaart van de omgeving genereert, terwijl ook objecten, mensen (die dynamisch zijn, in tegenstelling tot objecten) en structuren binnen die 3D-kaart worden gelabeld.
Open sourcebibliotheek
Het belangrijkste onderdeel van het nieuwe model van het team is Kimera, een open-sourcebibliotheek die het team eerder heeft ontwikkeld om tegelijkertijd een 3D geometrisch model van een omgeving te construeren, terwijl het de kans codeert dat een object bijvoorbeeld een stoel is versus een bureau. “Net als het mythische wezen dat een mix is van verschillende dieren, wilden we dat Kimera een mix was van mapping en semantisch begrip in 3D”, zegt Carlone.
Neuraal netwerk
Kimera werkt door beeldenstromen van de camera van een robot op te nemen, evenals traagheidsmetingen van ingebouwde sensoren, om het traject van de robot of camera te schatten en om de scène in 3D te reconstrueren, allemaal in realtime. Om een semantische 3D-mesh te genereren, gebruikt Kimera een bestaand neuraal netwerk dat is getraind op miljoenen real-world afbeeldingen, om het label van elke pixel te voorspellen, en projecteert deze labels vervolgens in 3D met behulp van een techniek die bekend staat als ray-casting, die vaak wordt gebruikt in de computer afbeeldingen voor real-time weergave.
Het resultaat is een kaart van de omgeving van een robot die lijkt op een dicht, driedimensionaal netwerk, waarbij elk gezicht een kleurcode heeft als onderdeel van de objecten, structuren en mensen in de omgeving.
Een gelaagde scène
Als een robot alleen op dit gaas zou vertrouwen om door zijn omgeving te navigeren, zou het een computationeel dure en tijdrovende taak zijn. Dus bouwden de onderzoekers Kimera voort en ontwikkelden algoritmen om 3D dynamische “scènegrafieken” te construeren uit Kimera’s eerste, zeer dichte 3D semantische mesh. Scènegrafieken zijn populaire computergrafiekmodellen die complexe scènes manipuleren en renderen, en worden meestal gebruikt in videogame-engines om 3D-omgevingen weer te geven.
Zien
In het geval van de dynamische 3D-scènegrafieken, de bijbehorende algoritmen abstract of afgebroken, Kimera’s gedetailleerde 3D-semantische mesh in verschillende semantische lagen, zodat een robot een scène door een bepaalde laag of lens kan ‘zien’. De lagen evolueren in hiërarchie van objecten en mensen naar open ruimtes en structuren zoals muren en plafonds, naar kamers, gangen en hallen en uiteindelijk hele gebouwen.
Carlone zegt dat deze gelaagde weergave voorkomt dat een robot miljarden punten en gezichten in de originele 3D-mesh moet begrijpen.
Binnen de laag van objecten en mensen hebben de onderzoekers ook algoritmen kunnen ontwikkelen die de beweging en de vorm van mensen in de omgeving in realtime volgen. Het team testte hun nieuwe model in een fotorealistische simulator, ontwikkeld in samenwerking met MIT Lincoln Laboratory, dat een robot simuleert die navigeert door een dynamische kantooromgeving vol met mensen die zich verplaatsen.
Toepassingen
“We stellen robots in wezen in staat om mentale modellen te hebben die lijken op de modellen die mensen gebruiken”, zegt Carlone. “Dit kan van invloed zijn op veel toepassingen, waaronder zelfrijdende auto’s, zoek- en reddingsacties, gezamenlijke productie en robotica voor huishoudelijk gebruik.
Een ander domein is virtual and augmented reality (AR). Stel je voor dat je een AR-bril draagt die ons algoritme uitvoert: de bril kan je helpen met vragen als ‘Waar heb ik mijn rode mok achtergelaten?’ En ‘Wat is de dichtstbijzijnde uitgang?’ Je kunt het beschouwen als een Alexa die is bewust van de omgeving om je heen en begrijpt objecten, mensen en hun relaties. “
Deep learning
“Onze aanpak is zojuist mogelijk gemaakt dankzij de recente vooruitgang in deep learning en decennia van onderzoek naar gelijktijdige lokalisatie en mapping”, zegt Rosinol. “Met dit werk maken we de sprong naar een nieuw tijdperk van robotperceptie, genaamd spatial-AI, dat nog maar in de kinderschoenen staat, maar een groot potentieel heeft in robotica en grootschalige virtuele en augmented reality.”
Beeld: Courtesy of the researchers