Zero

Sempre più, i robot stanno lavorando insieme agli esseri umani. Quei robot che, tuttavia, non gestire i cambiamenti del loro ambiente molto bene. Se un oggetto è fuori luogo, può diventare difficile per un robot per identificare e manipolare l’oggetto.
Per trovare e raccogliere un oggetto nel mondo reale, anche se è fuori luogo-un robot ha bisogno di un computer vision algoritmo in grado di identificare la posizione 3D e l’orientamento di un oggetto in una scena — che cosa è conosciuto come il ” 6-DoF (gradi di libertà) posa.”
I ricercatori hanno lavorato per un po ‘ per affrontare questa sfida, ma la formazione di questi algoritmi è ancora difficile. Questa settimana alla Conferenza su Robot di Apprendimento a Zurigo, un team di Nvidia ricercatori è la presentazione di un romanzo profondo di apprendimento basato su un sistema che può offrire una soluzione.
Attraverso la formazione del loro computer vision algoritmo con immagini sintetiche, sono riusciti a bypassare il complesso, laborioso processo di elaborazione di immagini fotografiche per la formazione. In cima a che, utilizzando una combinazione unica di immagini sintetiche, Nvidia squadra ha formato un algoritmo che può effettivamente superare una rete di formati di immagini reali.
Questa rappresenta la prima volta che un algoritmo addestrati solo con dati sintetici è stato in grado di battere una rete di formati di immagini reali per oggetto la stima della posa su diversi oggetti di un benchmark standard. Questo renderà la formazione di algoritmi per robot molto più facile.
“Con i dati sintetici, siamo in grado di generare una quantità quasi infinita, con le etichette che provengono essenzialmente gratuito” Stan Birchfield, a portare la robotica ricercatore presso Nvidia, ha spiegato di ZDNet.
“In definitiva, ciò che stiamo cercando di fare è rendere possibile per una persona per insegnare a un robot di una nuova attività in un breve periodo di tempo,” Birchfield detto. In questo modo si sblocca il potenziale per i robot per aiutare le persone in una varietà di impostazioni, tra cui fabbriche, la casa e le strutture sanitarie.
Più lavoro è necessario in questo spazio a causa della natura di computer vision di ricerca. Mentre i ricercatori hanno compiuto significativi passi in avanti in questo campo, hanno in genere testare i loro algoritmi contro fissa insiemi di dati.
“Che la metodologia non sempre si traduce in il mondo reale e il contesto di un robotica con sistema” Birchfield detto. “Stiamo vedendo un sistema che non solo dimostra di essere una buona risultati quantitativi su un particolare insieme di dati, ma funziona anche in ambito di robotica del sistema.”
Nvidia squadra può montare un RGB standard della fotocamera a un robot e utilizzato l’algoritmo per consentire al robot di vedere, raccogliere e spostare le immagini.
I ricercatori hanno addestrato una rete che utilizza Nvidia Tesla V100 Gpu su un DGX Station, con la cuDNN accelerazione PyTorch profondo. Hanno usato un plugin personalizzato sviluppato da Nvidia per l’Unreal Engine per generare i dati sintetici.
In passato, i dati sintetici era insufficiente per la formazione di algoritmi di computer vision perché le immagini generate al computer semplicemente non sembrare reale.
“Il trend fino a poco tempo fa, circa un anno o giù di lì, era quello di cercare di produrre immagini che assomigliava di più e più realistico,” Birchfield spiegato. “Il problema che i ricercatori hanno scoperto che per rendere le immagini più realistiche, hanno dovuto assumere artisti e ha dovuto spendere un sacco di tempo di creazione di scene a guardare esattamente come il mondo reale. Che ha ridotto la quantità di varietà-si potrebbe modellare una stanza particolare, ma non una varietà di camere.”
La varietà più e meglio addestrato l’algoritmo è.
L’anno scorso, i ricercatori hanno iniziato a sacrificare alcune fotorealismo in favore di varietà con dominio “randomizzati” insiemi di formazione di immagini-quelle in cui i parametri utilizzati per generare le immagini sono le più svariate. Per esempio, Birchfield ha detto, “L’illuminazione è casuale-ci sono alcune immagini luminose, alcune immagini scure… Gli oggetti sono collocati in nonrealistic modi, come oggetti che fluttuano nello spazio.”
Nvidia, la squadra ha raggiunto la loro svolta utilizzando una combinazione di non fotorealistici dominio di dati da studi randomizzati e fotorealistici dati di sfruttare i punti di forza di entrambi.
“La nostra speranza è di altri ricercatori questa tecnica utile per la loro ricerca,” Birchfield detto.
Argomenti Correlati:
Robotica
La Trasformazione Digitale
CXO
Internet delle Cose
L’innovazione
Enterprise Software
0