Sempre di più, AI sta cercando di fare macchine per insegnare loro, con un minimo di umana orientamento. La cosiddetta auto-controllo è un elemento che può essere aggiunto a un sacco di macchina compiti di apprendimento, in modo che un computer impara con meno di aiuto umano, forse un giorno con nessuno.
Gli scienziati della Cina di Sun Yat-Sen University e il Politecnico di Hong Kong uso di auto-controllo in una nuova po ‘ di ricerca per aiutare un computer imparare la posa di una figura umana in un video clip.
La comprensione di ciò che una persona fa in una foto è la sua ricca vena di apprendimento automatico di ricerca, utile per tutta una serie di cose tra cui la videosorveglianza. Ma tali metodi si basano su “annotata” set di dati in cui le etichette sono accuratamente applicata per l’orientamento delle articolazioni del corpo.
Anche: Guardando i video di YouTube potrebbe un giorno far robot copia esseri umani
Che è un problema, perchè più grandi e più “profondo” reti neurali sono affamato di più e di più dati, ma non c’è sempre abbastanza con l’etichetta dati per alimentare la rete.
Così, il Sun Yat-Sen ricercatori intendono mostrare una rete neurale può perfezionare la propria conoscenza attraverso un continuo confronto tra l’ipotesi di più reti, in ultima analisi, diminuendo il bisogno di “verità a terra”, resa possibile da una etichetta set di dati.

Cina AI gli scienziati mostrano come la loro macchina di apprendimento del modello perfezionato la sua “previsione” del 3D posa di un attore da un’immagine aggiungendo un po ‘ di codice di controllo per l’ultima parte della rete neurale.
(Immagine: Wang et. al. 2019)
Come gli autori hanno messo, la prima sforzi per la deduzione di una posa umano che hanno raggiunto il successo, ma a scapito di un “tempo di una architettura di rete (ad esempio, ResNet-50) e scalabilità limitata per tutti gli scenari a causa dell’insufficiente 3D posa di dati”.
Gli autori dimostrano il successo in extremis AI metodi nel prevedere la posa di una figura attraverso una serie di test di benchmark. Essi mostrano anche che anche battere i propri risultati a partire dal 2017, con l’aggiunta di questo nuovo approccio di vigilanza.
Anche: MIT alza la posta a ottenere uno AI insegnare altro
La carta 3D Posa Umano Macchine con Auto-Apprendimento supervisionato, è pubblicato su arXiv pre-print server è stato creato da Keze Wang Liang Lin, Chenhan Jiang Chen Qian, e Pengxu Wei. In particolare, Qian è con SenseTime, il Cinese AI startup che vende software per varie applicazioni come il riconoscimento facciale, e distribuisce una macchina di apprendimento quadro di programmazione chiamato “Pappagalli.”
Nella loro carta originale 2017, gli autori hanno utilizzato un annotato set di dati, il “MPII Posa Umano” set di dati compilati nel 2014 da Mykhaylo Andriluka e colleghi in Germania, Max Planck Institute per l’Informatica. Hanno usato questa etichetta set di dati per estrarre due-dimensionale di parti del corpo umano da immagini fisse-in fondo, bastone-figura disegni di arti orientati nello spazio. Che poi convertiti in quelli 2D corpo-rappresentazione in 3D delle rappresentazioni che indicano l’orientamento degli arti nello spazio tridimensionale.
Nel nuovo libro, gli autori di fare lo stesso “pre-formazione” via MPII set di dati, estrarre il 2D pose da immagini. E proprio come nel 2017, utilizzare un altro set di dati”, Human3.6M,” per estrarre la verità di terra per il 3D. Human3.6M è di 3,6 milioni di immagini scattate in un ambiente di laboratorio di attori pagati svolgimento di una serie di attività, dalla corsa alla camminata a fumare, a mangiare.
Anche: Google suggerisce tutti i software potrebbero usare un po ‘ di robot AI
Cosa c’è di nuovo questa volta è che nella parte finale della loro rete neurale, si buttano via in 2D e 3D annotazioni. Invece di confrontare la previsione del loro modello 3D rende su ciò che la sua versione 2D dovrebbe essere per le immagini 2D che sono state prodotte nella prima fase. “Dopo l’inizializzazione, possiamo sostituire il predetto 2D pose e 3D posa per il 2D e 3D di terra-verità per ottimizzare” il modello “self-sotto la supervisione di moda”.
“Il progetto di coordinate 3D(s)” del 3D posa “nel piano dell’immagine per ottenere le proiezioni 2D posa” e poi di “ridurre il divario” tra questo nuovo 2D posa e il primo che aveva derivato “come ottimizzazione obiettivo.”
In un certo senso, la rete neurale continua a chiedere se il suo modello 3D del corpo è di predire con precisione in tre dimensioni di quello che si pensava all’inizio del processo, in due dimensioni, di apprendimento su come 3D e 2D corrispondono.
C’è un sacco di ora-macchina standard di apprendimento roba qui: Un convolutional rete neurale, o la CNN, permette al sistema di estrarre il 2D figura del bastone. Tale approccio è preso in prestito da un precedente lavoro della Carnegie-Mellon ricercatori nel 2014 e di un follow-up hanno fatto nel 2016.
Un diagramma completo di rete neurale 3D Posa di Macchine, tra cui un convolutional rete neurale per estrarre 2D figura di comprensione, seguiti da una lunga memoria a breve termine rete per estrarre le informazioni temporali chiave 3D comprensione, seguito da un finale self-sotto la supervisione di confronto tra le previsioni per migliorare i risultati.
(Immagine: Wang et. al. 2019)
Poi, una lunga memoria a breve termine, o LSTM, una rete neurale specializzato per conservare un ricordo di sequenze di eventi, è utilizzato per estrarre la continuità del corpo da più sequenziale fotogrammi video per creare il modello 3D. Che il lavoro è modellato dopo il lavoro fatto nel 2014 da Alex Graves e i suoi colleghi di Google DeepMind, che era stato originariamente costruito per il riconoscimento vocale.
Cosa c’è di romanzo qui è imponente auto sorveglianza per rendere il tutto tenere insieme senza terra-verità etichette. Con questo ultimo passaggio, gli autori sono stati in grado di ridurre la necessità di dati 3D e invece magra su immagini 2D. “Le imposte meccanismo di correzione ci permette di sfruttare l’esterno su larga scala 2D posa umano di dati a spinta umana in 3D la stima della posa,” scrivono.
Deve leggere
‘IA è molto, molto stupido”, dice Google AI leader CNETBaidu crea Kunlun di silicio per AIUnificata di Google IA divisione di un chiaro segnale di AI futuri TechRepublic
Gli autori non solo consegnato migliori risultati sul Human3.6M database, hanno visto un drammatico speed-up contro approcci consolidati. In esecuzione su una singola Nvidia “GTX1080” GPU, prese le loro reti neurali 51 millisecondi per elaborare un’immagine rispetto a quanto 880 millisecondi per altri approcci. Inoltre hanno visto un drammatico aumento di velocità rispetto alla prima, 2017 approccio. I risultati convalidare quello che si chiama un “architettura leggera” per la loro rete neurale.
I ricercatori hanno un sacco di concorrenza per il prossimo futuro. Altri approcci hanno preso allo stesso modo “leggermente supervisionata” approccio per la stima di pose, e anche l’acquisizione di movimento del corpo umano. Per esempio, il laboratorio di robotica del professor Sergey Levine di UC Berkeley, lo scorso ottobre, ha dichiarato di essere in grado di formare simulato robot da imitare attività umane, come si è visto in senza etichetta i video di YouTube. Forse i Cinesi di lavoro e sforzi come Levine alcuni fusion lungo la strada. In ogni caso, il valore di auto-apprendimento supervisionato è chiaramente un punto principale di AI di ricerca.
Precedente e relativa copertura:
Che cosa è l’IA? Tutto quello che devi sapere
Un esecutivo a guida di intelligenza artificiale, machine learning e generale AI alle reti neurali.
Cos’è il deep learning? Tutto quello che devi sapere
Il lowdown su deep learning: da come si relaziona con il più ampio campo di machine learning a come iniziare con esso.
Che cosa è macchina di apprendimento? Tutto quello che devi sapere
Questa guida spiega in cosa consiste la macchina di apprendimento, di come esso è legato all’intelligenza artificiale, come funziona e perché è importante.
Che cos’è il cloud computing? Tutto quello che devi sapere su
Un’introduzione al cloud computing destra, dalle nozioni di base fino a IaaS e PaaS, ibrido, public e private cloud.
Argomenti Correlati:
Cina
La Trasformazione Digitale
CXO
Internet delle Cose
L’innovazione
Enterprise Software