Nul
Computers hebben gekregen zo goed in het herkennen van beelden via machine learning, waarom geen gebruik maken van die mogelijkheid om te leren van de computer voor andere dingen? Dat is de geest van een nieuw beetje van het onderzoek door het Massachusetts Institute of Technology, die aangesloten verwerking van natuurlijke taal om het imago van de erkenning.
MIT gecoördineerd de activiteiten van de twee machine learning systemen, één voor het imago van de erkenning en de ander voor het redekundig ontleden. Tegelijkertijd is het beeld netwerk geleerd te halen uit de exacte plaats in een foto waar een object is, en de spraak-netwerk pakte het exacte moment in een zin met een woord voor dat object in de foto.
De twee netwerken geleerd samen, versterken elkaar, totdat zij kwamen op een gezamenlijk antwoord dat de unie vertegenwoordigt van de locatie van het object en het moment van het gesproken woord. Ze “co-gelokaliseerd, zoals hij gezegd, ruimtelijk en temporeel.
Ook: Top 5: Dingen om te weten over AI TechRepublic
Het papier, “Gezamenlijk Ontdekken van Visual Objects en Gesproken Woorden van Ruwe Zintuiglijke Input,” deze week werd gepresenteerd op de European Conference on Computer Vision door MIT-onderzoeker David Harwath en collega ‘s Adrià Recasens, Dídac Surís, Galen Chuang, Antonio Torralba, James Glas, alle van MIT’ s Computer Science and Artificial Intelligence Laboratory, CSAIL.
De auteurs zijn geïnspireerd door het leerproces van baby ‘ s. Baby ‘ s leren om te koppelen van een object dat ze zien met het woord verteld door een volwassene. De baby ‘ s proces is een rommelig, met veel “ruis” in de verschillende manieren waarop objecten worden weergegeven in de wereld, en de verschillende manieren waarop de verschillende menselijke volwassen stemmen klinken. Hoewel de wetenschappers waren niet aan het ontcijferen van het menselijk leerproces, vonden ze een intrigerende uitdaging is het onderwerp van een neuraal netwerk is een zelfde soort uitdaging, namelijk, met slechts minimale begeleiding.
Als baby ‘ s, de dienst onderzoek geen van de standaard toezicht op soortgelijke voorafgaande onderzoek. Alle gegevens worden voorgelegd aan de computer in ruwe vorm. Als de auteurs schrijven “Zowel de spraak en afbeeldingen volledig ongesegmenteerd, verschoven, en unannotated tijdens de training, afgezien van de aanname dat we weten welke beelden en gesproken bijschriften bij elkaar horen.”
Het werk is gericht op een plaats in machine learning dat is moeilijk. Terwijl ML heeft grote vorderingen gemaakt in image recognition, natuurlijke taal speech processing bleef. Systemen zoals Apple ‘ s Siri-assistent vereisen een uitgebreide training via tekst van de transcriptie van spraak, en met expliciete “segmentatie” van een stroom van audio, eruit te pikken en woorden te leren.
De hoop hier is het verminderen van de noodzaak voor de transcriptie, en aldus mogelijk maken logopedie dan alleen de “belangrijke talen van de wereld”, zoals het engels. Er zijn meer dan 7000 gesproken talen, de auteurs observeren en trainen met afschriften is niet van plan om op te schalen naar die vele talen.
Ook op: Facebook werft AI om te “tweaken” de prestaties van de webserver
Harwath en collega ‘ s gebouwd twee convolutional neurale netwerken, of CNNs, één voor het imago van de opsporing en één voor spraak detectie. Interessant is dat de spraak audio-signalen worden omgezet in afbeeldingen zodat ze kunnen worden verwerkt visueel net als de beelden.
De netwerken werden gevuld met 400.000 paar van de beelden en de bijbehorende audio-clips te beschrijven. De clips werden verkregen door het werven van mensen op Amazon ‘ s Mechanical Turk service om te spreken van een beschrijving van wat elke afbeelding.