Nul
Computere har fået så god til at genkende billeder via machine learning, hvorfor så ikke bruge denne evne til at lære computeren til andre ting? Det er den ånd af en ny smule af forskning ved Massachusetts Institute of Technology, som hooked op naturligt sprog forarbejdning til billede anerkendelse.
MIT koordineret aktivitet af to machine learning systemer, et billede for anerkendelse og en anden til at tale parsing. Samtidig image network lært at udvælge det nøjagtige sted i et billede, hvor en genstand er, og talen netværk plukket ud af den nøjagtige øjeblik, i en sætning der indeholder et ord for det pågældende objekt i billedet.
De to netværk har lært sammen, forstærker hinanden, indtil de nærmet sig hinanden på et fælles svar, der repræsenterer placeringen af objektet, og tidspunktet for det talte ord. De “co-lokaliseret,” som det er sagt, rumligt og tidsligt.
Også: Top 5: Ting at vide om AI TechRepublic
Papiret, “Fællesskab Opdage Visuelle Objekter og Talte Ord fra Rå sanseindtryk,” blev præsenteret i denne uge på European Conference on Computer Vision af MIT forsker David Harwath og kolleger Adrià Recasens, Dídac Surís, Galen Chuang, Antonio Torralba, James Glas, alle af MIT ‘ s Computer Science and Artificial Intelligence Laboratory, CSAIL.
Forfatterne var inspireret af den læring proces af babyer. Babyer lærer at forbinde et objekt, de kan se med det ord fortalt af en voksen. Baby ‘ s proces er en rodet, med masser af “støj” i de forskellige måder objekter, der skal vises i den verden, og de forskellige måder, som forskellige menneskelige voksen-lydene lyder. Selvom forskerne ikke var at forsøge at dechifrere den menneskelige læreproces, at de fandt en spændende udfordring med hensyn til en neurale netværk til et lignende form for udfordring, nemlig, at der kun er minimal supervision.
Ligesom babyer, den forskning, der er ansat ingen af de standard tilsyn, der anvendes i lignende tidligere forskning. Alle de data, der blev indgivet til den computer i rå form. Som forfatterne skriver, “Både tale og billeder er helt unsegmented, unaligned, og uden markeringer under træning, bortset fra den antagelse, at vi ved, hvilke billeder og talte tekster, der hører sammen.”
Arbejdet sigter mod en plads i machine learning, der er kæmpet. Mens ML har gjort store fremskridt i billedet anerkendelse, naturlige sprog, behandling af tale-har haltet. Systemer, som for eksempel Apple ‘ s Siri-assistenten kræver omfattende uddannelse via sms-transskriptioner af tale, og ved hjælp af eksplicitte “segmentering” af en strøm af lyd, og vælge ud og lære ord udenad.
De håber, at her er at mindske behovet for afskrifter, og dermed gøre det muligt at tale uddannelse ud over bare den “største sprog i verden”, som i det engelske. Der er over 7.000 talt menneskelige sprog, forfatterne observere, og skulle til at træne med udskrifter kommer ikke til at skalere til, at mange tunger.
Også: Facebook hverver AI til at nappe web-server performance
Harwath og kolleger bygget to convolutional neurale netværk, eller CNNs, en for billede registrerings-og en tale for afsløring. Det er interessant, tale, lyd bølgeformer er omdannet til billeder, således at de kan behandles visuelt ligesom billederne.
Det netværk, der var fyldt med 400.000 par billeder og tilhørende lyd klip, der beskriver dem. De klip, der blev opnået ved at ansætte folk på Amazons Mechanical Turk service at sige en beskrivelse af, hvad der er i hvert billede.