Zoals de mythische toren van Babel, AI-onderzoekers hebben jaren gezocht naar een wiskundige representatie dat zou het inkapselen van alle natuurlijke taal. Ze zijn dichterbij
Dinsdag, Facebook heeft aangekondigd dat het open-sourcing “LASER”, een PyTorch tool voor “Taal-Agnostisch Zin Vertegenwoordigingen.”
De code ten grondslag ligt aan een prachtige onderzoeksrapport Facebook ontketend in December, met de titel, “Massaal Meertalige Zin Embeddings voor Nul-Shot Cross-Language Transfer en ver Daarbuiten.” Het werk liet zien hoe Facebook in staat waren om te trainen één neuraal netwerk model vertegenwoordigen de structuur van 93 verschillende talen in 34 verschillende alfabetten.
Dat onderzoek was in staat om het ontwikkelen van een “vertegenwoordiging” van een wiskundige transformatie van zinnen, in de vorm van vectoren, die kapselt de structurele overeenkomsten in de 93 talen. Dat enkele wiskundige vector model gemeenschappelijk zijn voor de 93 talen werd vervolgens gebruikt bij het trainen van de computer op meerdere taken waar het moest voldoen zinnen tussen paren van talen die het nog nooit had gezien, zoals het russisch in het Swahili, een prestatie die in de branche bekend als “nul-shot” het leren van een taal.
Ook: China ‘ s AI-wetenschappers leren een neuraal net naar de trein zelf

Het neuraal netwerk model van de encoder en decoder, met LSTM circuits.
Facebook AI Onderzoek
“Semantisch vergelijkbare zinnen in verschillende talen zijn dicht in de resulterende inbedding van de ruimte,” is de technische beschrijving van de voorstelling.
Als ze het uitleggen, een grote motivatie voor het werk is “de hoop dat talen met beperkte middelen profiteren van gezamenlijke training in de loop van vele talen.”
Dat gezegd hebbende, zijn er nog steeds beperkingen hier: Klingon is expliciet niet ondersteund, bijvoorbeeld. En het Jiddisch, terwijl het wordt opgenomen voor test doeleinden in een aanvullende stap, heeft te weinig teksten te bereiken opmerkelijke resultaten met deze tools.
Met de code, gepubliceerd op GitHub, je krijgt wat heet een “encoder-decoder” neurale netwerk, opgebouwd uit zogenaamde Lange Korte-Termijn Geheugen (LSTM) neurale netwerken, een werkpaard van spraak en tekst te verwerken.
Als de auteurs, Michael Artetxe en Holger Schwenk, met Facebook AI Onderzoek, beschreven in December hun artikel (gepubliceerd op het arXiv pre-afdrukserver), zij bouwden voort op de voorgaande benaderingen die gericht zijn op het vinden van een zin “embedding” een representatie van de zin in vector voorwaarden.
Een zin in één van de 93 “bron” talen wordt gevoed in een partij van de LSTMs. Ze zet de zin in een vector van een vaste lengte. Een overeenkomstige LSTM de decoder probeert te halen uit de zin in het engels of het spaans dat overeenkomt met de betekenis van de bron zin. Door de training met tal van tweetalige teksten, zoals “OpenSubtitles2018,” een verzameling van film met ondertiteling in 57 talen, de encoder wordt beter en beter in het creëren van een rekenkundige insluiten, of vertegenwoordiging, dat helpt de decoder het vinden van de juiste bijpassende engelse of spaanse zin.
Ook: MIT ups ante in het krijgen van een AI te leren een andere
Zodra deze training fase is voltooid, wordt de decoder wordt weggegooid en de encoder bestaat als een ongerepte LSTM in welke talen kan worden gegoten te worden uitgevoerd in een andere taal op een groot aantal tests.
Bijvoorbeeld met behulp van een data-set van tweetalige zinnen ondersteuning van engels en 14 talen, ontwikkeld door Facebook in 2017, genaamd “XNLI,” test of het systeem kan vergelijken zinnen in de nieuwe taal paren, zoals frans en Chinees. Hoewel er geen expliciete training tussen de franse en de Chinese, de universele encoder is in staat om te trainen op de een classifier neurale net om te zeggen of de zin in het frans houdt in een bepaalde zin in het Chinees, of in tegenspraak is.
De LASER systeem “kaarten” talen naar een gemeenschappelijke “insluiten.”
Facebook AI Onderzoek
Over deze en een aantal andere tests, Artetxe en Schwenk melden dat ze overgoten niet alleen Facebook van de vorige inzet, maar ook die van het Google-team, dat in oktober meldde hun benchmark resultaten voor een encoder met de naam “BERT.”
(Een blog de aankondiging van de code release heeft meer details over het werk.)
Artetxe en Schwenk voeren op de traditie van de encoder-decoder werk dat al jaren. Sommige van deze modellen zijn toegepast om taal te verwerken, zoals Ilja Sutsekever “seq2seq” netwerk ontwikkeld in 2014 in Google.
Ook: Google geeft alle software kunnen gebruik maken van een kleine robot AI
En het doel van het proberen om een gemeenschappelijke vertegenwoordiging van alle talen heeft een rijke geschiedenis in de afgelopen jaren. Het ethos van de “deep learning” is dat een vertegenwoordiging van elke vorm van informatie is rijker als er “beperkingen” van toepassing is op die vertegenwoordiging. Het maken van een neuraal net lift 93 talen is een vrij ernstige beperking.
Google ‘ s “Neurale Machine Translation” – systeem, geïntroduceerd in 2016, was ook op zoek om te bewijzen dat een soort van universele vertegenwoordiging. Onderzoekers die gebouwd dat systeem schreef in 2017 die hun werk voorgesteld om “het bewijs voor een interlingua,” een “gedeelde weergave” tussen talen.
Maar Google gebruikt encoder-decoders voor gemeenschappelijke vertaling paren, zoals het engels en het frans. De LASER aanpak, het creëren van één enkele draaiknop voor 93 talen, goed beweegt dan wat u heeft gedaan tot nu toe.
De encoder kan overeenkomen met zinnen tussen talencombinaties waarvoor hij niet is opgeleid.
Facebook AI Onderzoek
Moet lezen
‘AI is heel, heel stom,’ zegt Google AI leider CNETBaidu maakt Kunlun silicium voor AIUnified Google AI afdeling een duidelijk signaal van AI de toekomst van TechRepublic
Houd in gedachten een paar beperkingen voor het downloaden van de code en ga aan de slag. De ene is dat slechts enkele van de 93 talen over de nodige opleiding en test data mogelijk te maken real-evaluaties, zoals de 14 talen in de XLNI benchmark suite. De auteurs komen met hun eigen corpus van 1.000 zin paren voor 29 extra talen die niet zijn opgenomen in de 93. Ze zijn het Jiddisch, de Friese taal in Nederland, mongoolse, en het Oud-engels, maar de resultaten vallen kort van de andere talen. Vandaar dat gebrek aan gegevens, in de vorm van geschreven teksten, is nog steeds een uitdaging voor vele talen.
Het andere ding om in gedachten te houden is dat de LASER niet blijven dezelfde neurale netto-code op GitHub vandaag. In de conclusie van hun papier, Artetxe en Schwenk schrijven dat ze van plan zijn te vervang de encoder-decoder ze ontwikkeld hebben met zoiets als een “Transformator” gebruikt door Google BERT.
“Bovendien,” schrijven ze, “we willen onderzoeken of het mogelijk strategieën te benutten eentalige trainingsgegevens naast parallelle corpora, zoals het gebruik van pre-getraind word embeddings, backtranslation, of andere ideeën van een zonder toezicht werkende machine vertaling.”
Vorige en aanverwante dekking:
Wat is AI? Alles wat je moet weten
Een executive gids voor kunstmatige intelligentie, van machine learning en algemene AI-neurale netwerken.
Wat is diep leren? Alles wat je moet weten
De lowdown op diep leren: van hoe het zich verhoudt tot het bredere veld van machine-leren door te zien hoe aan de slag met het.
Wat is machine learning? Alles wat je moet weten
In deze gids wordt uitgelegd wat ‘machine learning’ is, hoe het is in verband met kunstmatige intelligentie, hoe het werkt en waarom het belangrijk is.
Wat is cloud computing? Alles wat u moet weten over
Een introductie van cloud computing recht vanaf de basis tot IaaS en PaaS -, hybride -, public en private cloud.
Verwante Onderwerpen:
Ontwikkelaar
Digitale Transformatie
CXO
Het Internet van Dingen
Innovatie
Enterprise Software