Noll
Datorer har blivit så bra på att känna igen bilder via machine learning, varför inte använda denna förmåga att undervisa datorn andra saker? Det är anden av en ny bit av forskning av Massachusetts Institute of Technology, som är ansluten behandling av naturligt språk för att bildigenkänning.
MIT samordnade aktiviteten av två machine learning systems, en för bild erkännande och en annan för tal-och parsning. Samtidigt, bilden nätverk lärt mig att plocka ut den exakta platsen i en bild där ett objekt, och det tal nätverk plockat ut det exakta ögonblicket i en mening som innehåller ett ord för det objektet i bilden.
De två nätverken lärt oss tillsammans stärka varandra tills de strålar samman i ett gemensamt svar som representerar unionen av placeringen av objekt och tidpunkt för det talade ordet. De “co-lokaliserad,” som det är uttryckt, rumsligt och tidsmässigt.
Även: Topp 5: Saker att veta om AI TechRepublic
Papper, “Gemensamt Upptäcka Visuella Objekt och Talade Ord från Raw Sinnesintryck,” presenterades i veckan vid den Europeiska Konferensen om Datorn Vision av MIT-forskaren David Harwath och kollegor Adrià Recaş, Dídac Surís, Galen, Chuang, Antonio Torralba, James Glas, alla av MIT: s Computer Science and Artificial Intelligence Laboratory, CSAIL.
Författarna inspirerades av lärandet för barn. Barn lär sig att associera ett objekt att de inte ser med ordet sa till dem av en vuxen. Barnets process är en rörig, med massor av “brus” på olika sätt-objekt visas i världen, och olika sätt att olika mänskliga vuxen röster ljud. Även om forskarna inte försöker att dechiffrera den mänskliga lärande process, fann de en spännande utmaning att i fråga om neurala nätverk för att en liknande typ av utmaning, nämligen att, med endast minimal tillsyn.
Som spädbarn, research anställd ingen av standard tillsyn används i liknande tidigare forskning. Alla data som lämnades in till datorn i rå form. Som författarna skriver, “Både tal och bilder är helt unsegmented, alliansfria, och utan grafik under utbildning, bortsett från antagandet att vi vet vilka bilder och talat bildtexter hör ihop.”
Arbetet syftar till en plats i maskinen lärande som kämpade. Samtidigt ML har gjort stora framsteg i bilden erkännande, naturligt språk, tal har släpat. System som Apples assistent Siri kräver omfattande utbildning via sms: a transkriptioner av tal, och att använda explicita “segmentering” av en ström av ljud, för att plocka ut och memorera ord.
Förhoppningen här är att minska behovet av utskrifter, och därmed göra det möjligt för tal utbildning längre än bara den “stora språk i världen” som engelska. Det finns över 7 000 talat språk, författarna konstatera i och med att träna med avskrifter inte går att skala till att många tungor.
Också: Facebook anlitar AI för att justera web server prestanda
Harwath och kollegor konstruerat två convolutional neurala nätverk, eller CNNs, en för bild upptäckt och en för tal upptäckt. Intressant, tal-ljud vågformer omvandlas till bilder så att de kan behandlas visuellt precis som bilderna.
Näten var fulla med 400,000 par bilder och motsvarande ljudklipp du beskriver dem. De klipp som erhölls genom att rekrytera människor på Amazon Mechanical Turk service att tala en beskrivning av vad som finns i varje bild.
Falska bildtexter var också matas in i nätverk, för att förstärka ett korrekt svar. De nätverk som hålls bearbetning tal och ljud tills de har uppnått det bästa möjliga matchning mellan en liten bit av bilden och en liten del av ljud.
Det finns redan riktlinjer för framtiden utforskas, till exempel med hjälp av bilder för att översätta mellan olika språk.
Också: MIT lanserar MIT IQ, syftar till att främja mänskliga, artificiell intelligens genombrott, stärka samarbete
I ett separat papper som bygger på den första, med titeln “Vision som Interlingua,” Harwath och kollegor ihopkopplade en engelskspråkig beskrivning nätverk, och dess bilder, med en Hindi-språk nätverk med hjälp av bildtexter för samma bilder, som spelats in med Hindi som modersmål. Författarna kunde använda en text på ett språk, för att påminna om en rubrik i en annan. “Den visuella domän,” skriver de, har fungerat som “en interlingua eller” Rosetta Stone ” som tjänar till att ge språk med en gemensam jordning.”
Det är naturligtvis en väg att gå för att uppnå den komplexitet som en bebis snart mästare med språket. Harwath och företaget har uppnått vad de kallade “semantisk anpassning” mellan ord och föremål, men det är bara en korrespondens. Som författarna erkänner, det framtida arbetet bör “gå bortom enkla talade beskrivningar och uttryckligen adress relationer mellan objekt i scenen” för att “lära sig rikare språkliga representationer.”
Tidigare och relaterade täckning
Vad är AI? Allt du behöver veta
En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.
Vad är djupt lärande? Allt du behöver veta
Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.
Vad är lärande? Allt du behöver veta
Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.
Vad är cloud computing? Allt du behöver veta om
En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.
Relaterade Ämnen:
Innovation
Digital Omvandling
CXO
Sakernas Internet
Affärssystem
Smarta Städer
0