MIT alza la posta a ottenere uno AI insegnare altro

0
130

Zero

I computer sono diventati così bravi a riconoscere le immagini tramite macchina di apprendimento, perché non usare quella capacità di insegnare il computer altre cose? Questo è lo spirito di un nuovo bit di ricerca del Massachusetts Institute of Technology, che collegato l’elaborazione del linguaggio naturale per il riconoscimento di immagini.

MIT coordinato l’attività di due macchine, sistemi di apprendimento, uno per il riconoscimento di immagini e un altro per un discorso di analisi. Contemporaneamente, l’immagine di rete imparato a scegliere il luogo esatto in una foto in cui un oggetto è, e il discorso di rete scelto il momento esatto in una frase contenente una parola per l’oggetto in foto.

Le due reti imparato insieme, rafforzando l’un l’altro fino a che convergevano su una risposta comune che rappresenta l’unione della posizione dell’oggetto e il momento della parola. “Co-localizzate,” come è messo, spazialmente e temporalmente.

Anche: Top 5: le Cose da sapere riguardo AI TechRepublic

La carta, “Congiuntamente alla Scoperta di Oggetti Visivi e le Parole Pronunciate dal Raw Input Sensoriale” è stato presentato questa settimana in occasione della Conferenza Europea sulla Computer Vision, ricercatore del MIT, David Harwath e colleghi Adrià Recasens, Dídac Surís, Galeno Chuang, Antonio Torralba, James Vetro, tutti del MIT Computer Science and Artificial Intelligence Laboratory, CSAIL.

Gli autori si sono ispirati al processo di apprendimento dei bambini. I bambini imparano ad associare un oggetto che vedere con la parola raccontata da un adulto. Il bambino è un processo disordinato, con un sacco di “rumore” in modi diversi oggetti appaiono nel mondo, e i diversi modi in cui diverse umano adulto voci del suono. Anche se gli scienziati non stavano cercando di decifrare il processo di apprendimento umano, hanno trovato un’intrigante sfida per oggetto una rete neurale per un simile tipo di sfide, vale a dire, avendo solo una minima supervisione.

Come i neonati, la ricerca impiegato nessuno degli standard di supervisione utilizzato in simili ricerche prima. Tutti i dati sono stati inviati al computer in formato raw. Come scrivono gli autori, “la parola e le immagini sono completamente trasparente, non allineati, e non annotate durante l’allenamento, a parte dal presupposto che sappiamo che le immagini, parlato e sottotitoli per stare insieme.”

L’opera intende un luogo di apprendimento automatico che si dibatteva. Mentre l’ML ha fatto grandi passi avanti nell’immagine di riconoscimento del linguaggio naturale, l’elaborazione di discorso è rimasta. Sistemi come Siri di Apple assistente richiedono una formazione completa attraverso trascrizioni testuali del discorso, e l’utilizzo esplicito di “segmentazione” di un flusso di audio, di raccogliere e memorizzare le parole.

La speranza a questo punto è quello di ridurre la necessità per le trascrizioni, in modo da rendere possibile un discorso di formazione al di là di “principali lingue del mondo”, come l’inglese. Ci sono oltre 7.000 parlato lingue umane, gli autori notano, e di dover formare con le trascrizioni non ha intenzione di scala che molte lingue.

Anche: Facebook chiede ai per ottimizzare le prestazioni del server web

Harwath e i suoi collaboratori hanno costruito due convolutional reti neurali, o CNNs, uno per il rilevamento delle immagini e uno per il rilevamento del discorso. È interessante notare che il discorso di forme d’onda audio vengono convertiti in immagini in modo che possano essere elaborati visivamente, proprio come le immagini.

Le reti sono state riempite con 400.000 coppie di immagini e audio corrispondente clip che le descrive. I filmati sono stati ottenuti attraverso l’assunzione di persone di Amazon Mechanical Turk di servizio per parlare di una descrizione di ciò che in ogni immagine.