Nvidia onderzoekers het gemakkelijker maken om te trainen robots te halen spullen

0
145

Nul

baxter.png

Steeds meer robots werken naast mensen. Die robots, echter niet omgaan met veranderingen in hun omgeving erg goed. Als een object op zijn plaats, het kan moeilijk zijn om een robot te identificeren en te manipuleren dat object.

Zoeken en op te halen van een object in de echte wereld — zelfs als het misplaatst-een robot moet een computer vision algoritme dat zich kan identificeren met de 3D-positie en oriëntatie van een object in een scène — wat bekend staat als de ” 6-DoF (vrijheidsgraden) vormen.”

Onderzoekers werken al een tijdje om deze uitdaging aan te gaan, maar de opleiding van deze algoritmen is het nog steeds moeilijk. Deze week op de Conferentie over de Robot Leren in Zürich, een team van Nvidia onderzoekers is het presenteren van een roman diep leren-systeem kan een oplossing bieden.

Door de opleiding van hun computer vision algoritme met synthetische beelden, ze zijn erin geslaagd om een bypass om de complexe, arbeidsintensieve proces van het opstellen van fotografische beelden voor de opleiding. Op de top van dat, door het gebruik van een unieke combinatie van synthetische beelden, de Nvidia team is getraind door een algoritme dat kan eigenlijk beter dan een netwerk getraind op de echte beelden.

Dit is de eerste keer dat een algoritme getraind maar met synthetische gegevens heeft kunnen winnen van een netwerk getraind op de echte beelden voor het object, pose estimation op meerdere objecten van een standaard benchmark. Dit maakt de opleiding algoritmen voor robots veel gemakkelijker.

“Met synthetische gegevens, kunnen we het genereren van een bijna oneindige hoeveelheid met labels die in wezen gratis” Stan Birchfield, een lead robotica onderzoeker bij Nvidia, legde ZDNet.

“Wat we uiteindelijk proberen te doen is het mogelijk maken voor een persoon om te leren een robot een nieuwe taak in een korte periode van tijd,” Birchfield zei. Dit zal het potentieel voor robots om mensen te helpen in een verscheidenheid van instellingen, waaronder fabrieken, het huis of de zorgverleners.

Meer werk nodig was in deze ruimte, omdat de aard van computer vision onderzoek. Terwijl onderzoekers hebben aanzienlijke vooruitgang geboekt op dit gebied, ze meestal het testen van hun algoritmen tegen vaste data sets.

“Die methode niet altijd te vertalen naar de echte wereld en de context van een robotica-systeem,” Birchfield zei. “We zien een systeem dat getuigt niet alleen van een goede kwantitatieve resultaten op een bepaalde dataset, maar werkt ook in de context van het robotica-systeem.”

De Nvidia team kan de montage van een standaard RGB-camera met een robot, en gebruikt het algoritme om de robot te zien, pick-up en verplaats afbeeldingen.

De onderzoekers getraind op het netwerk met een Nvidia Tesla V100 Gpu ‘ s op een DGX-Station, met de cuDNN-versnelde PyTorch diep. Ze gebruikt een aangepaste plugin ontwikkeld door Nvidia voor de Unreal Engine voor het genereren van de synthetische gegevens.

In het verleden, synthetische gegevens ontoereikend was voor de opleiding van computer vision-algoritmen omdat de computer gegenereerde beelden gewoon niet echt zien.

“De trend tot voor kort, over een jaar of zo, was om te proberen om beelden te produceren, dat zag er meer en meer realistische,” Birchfield uitgelegd. “Het probleem is dat de onderzoekers vonden was dat om de beelden meer realistisch, ze moest het huren van kunstenaars en had te veel tijd steken in het vervaardigen van schermen precies hetzelfde uitzien als de echte wereld. Dat verminderde het bedrag van de verscheidenheid — je zou het model een bepaalde ruimte, maar niet over een verscheidenheid aan kamers.”

Hoe meer variëteit, hoe beter opgeleid de algoritme is.

Vorig jaar zijn de onderzoekers begonnen te offeren sommige fotorealisme in het voordeel van de variant met “domein gerandomiseerde” stelt van de opleiding beelden — die waarin de parameters die worden gebruikt voor het genereren van de afbeeldingen zijn zeer gevarieerd. Bijvoorbeeld, Birchfield zei: “De verlichting is gerandomiseerde — er zijn enkele lichte afbeeldingen, of andere donkere beelden… De objecten zijn geplaatst in nonrealistic manieren, zoals objecten in de ruimte zweefde.”

De Nvidia team bereikte hun doorbraak met behulp van een combinatie van niet-fotorealistische domein gerandomiseerde data en fotorealistische gegevens te profiteren van de sterke punten van beide.

“Onze hoop is dat andere onderzoekers vinden deze techniek nuttig zijn voor hun onderzoek,” Birchfield zei.

Verwante Onderwerpen:

Robotica

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software

0