Facebook öppna källor babels torn, Klingonska inte stöds

0
178

Som den berömda tornet i Babel, AI-forskare har under åren försökt en matematisk representation som skulle sammanfatta alla naturliga språk. De kommer allt närmare

Tisdag, Facebook meddelat att det är open-sourcing “LASER” – en PyTorch verktyg för “Språk-Agnostiker Meningen Representationer.”

Koden ligger till grund för en fantastisk research report Facebook lös i December, med titeln “Massivt Flerspråkig Meningen Embeddings för Noll-Shot Cross-Lingual Överföring och Bortom.” Arbetet visade hur Facebook skulle kunna träna en enda neurala nätverk modell för att representera strukturen på 93 olika språk i 34 olika alfabet.

Att forskning var i stånd att utveckla en “representation”, en matematisk transformation av meningar, i form av vektorer, som kapslar strukturella likheter över 93 språk. Som enda matematisk vektor modell som är gemensamma för 93 språk användes sedan för att träna datorn på flera uppgifter där det hade att matcha meningar mellan par av språk de aldrig hade sett förut, som till exempel ryska till Swahili, en bedrift som den kallas i handeln som “noll-shot” språkinlärning.

Också: Kinas AI-forskare undervisar ett neuralt nät för att utbilda sig

facebook-ai-laser-encoder-decoder-2019.png

Det neurala nätverket modell av kodare och avkodare, med hjälp av LSTM kretsar.

Facebook AI-Forskning

“Semantiskt liknande meningar på olika språk är nära i den resulterande bädda in space”, är den tekniska sätt att beskriva representation.

Som de förklarar det, en stor motivation för arbetet är att “hoppas att språk med begränsade resurser och dra nytta av gemensamma träningen under många språk.”

Som sagt, det finns fortfarande begränsningar här: Klingon är uttryckligen inte stöds, till exempel. Och Jiddisch, medan inkluderas för test i en kompletterande åtgärd har för få texter för att uppnå något anmärkningsvärt resultat med dessa verktyg.

Med koden, inlagd på GitHub, du får vad som kallas en “encoder-decoder” neurala nätverk, uppbyggt av så kallade ” Long Short-Term Memory (LSTM) neurala nät, en arbetshäst för tal-och textbehandling.

Som författare, Michael Artetxe och Holger Schwenk, med Facebook AI-Forskning, detaljerade i sina December artikel (publicerat på arXiv pre-print-server), som de bygger på tidigare strategier som syftar till att hitta en mening “bädda in”, en representation av meningen i vektor-form.

En mening i en av de 93 “källa” språk som matas in i ett parti av LSTMs. De vänder sig meningen i en vector av fast längd. En motsvarande LSTM kallas en dekoder försöker plocka ut meningen i antingen engelska eller spanska som motsvarar vilket innebär att källan meningen. Genom att träna på många tvåspråkiga texter, till exempel “OpenSubtitles2018,” en samling av film-undertexter i 57 språk, encoder blir bättre och bättre på att skapa en enda matematisk bädda in, eller representation, som hjälper dekoder hitta rätt matchning engelska eller spanska fras.

Också: MIT ups ante på att få en AI att lära en annan

När denna utbildning etappen är klar, dekoder kastas bort och givaren finns som en enda orörda LSTM på vilka språk kan hällas för att vara ut i ett annat språk på en mängd olika tester.

Till exempel med hjälp av en uppsättning data för tvåspråkiga fraser stöd för engelska och 14 språk, utvecklat av Facebook i 2017, som kallas “XNLI,” testar om systemet kan jämföra meningar över nya språkpar, såsom franska till Kinesiska. Även om det har varit någon uttrycklig utbildning mellan franska och Kinesiska, den universella encoder kan träna en klassificerare neurala nätet att säga om meningen på franska medför en viss mening på Kinesiska, eller motsäger det.

codeblog-embedding-space-v4.png

LASER system “kartor” språk i en gemensam “bädda in.”

Facebook AI-Forskning

Över dessa och en mängd andra tester, Artetxe och Schwenk uppger att de har toppat inte bara Facebook tidigare insatser, men också för Googles AI-team, som i oktober rapporterade sina resultaten för en encoder som kallas “BERT”.

(Ett blogginlägg meddelar kod release har ytterligare detaljer om arbetet.)

Artetxe och Schwenk bär på en tradition av encoder-decoder arbete som pågått i flera år nu. Några av dessa modeller har fått stor spridning för språket bearbetning, såsom Ilya Sutsekever “seq2seq” nätverket utvecklas under 2014 på Google.

Också: Google föreslår att alla program kan använda en liten robot AI

Och det övergripande målet för att försöka för en enda gemensam representation av alla språk har en rik historia de senaste åren. Ethos av “deep learning” är som en representation av någon typ av information är rikare om det är “begränsningar” som används på representation. Att göra en neurala nätet hiss 93 språk är en ganska allvarlig begränsning.

Googles “Neurala maskinöversättning” – systemet, som infördes i och med 2016, var också att försöka bevisa ett slags universell representation. Forskare som konstruerade systemet skrev i 2017, att deras arbete föreslog “som bevis för interlingua,” en “gemensam representation” mellan språk.

Men Google används kodare-avkodare för vanlig översättning par, till exempel engelska och franska. LASER metoden, att skapa en enda encoder för 93 språk, rör sig väl utöver vad som har gjorts hittills.

codeblog-languages-v4.png

Givaren kan matcha meningar mellan språket par för vilket det inte var utbildade.

Facebook AI-Forskning

Måste läsa

‘AI är mycket, mycket dumt”, säger Googles AI ledare CNETBaidu skapar Kunlun kisel för AIEnhetlig Google AI division en tydlig signal om att AI: s framtida TechRepublic

Tänk på ett par begränsningar innan du laddar ner koden och komma igång. En är att endast vissa av de 93 språk har tillräcklig utbildning och test data för att göra det möjligt verkliga utvärderingar, som 14 språk i XLNI riktmärke svit. Författarna har kommit fram till sina egna corpus 1 000 meningen par för 29 extra språk som inte ingår i den 93. De har Jiddisch, det Frisiska språket i Nederländerna, mongoliska, och Gamla engelska, men resultaten falla korta på andra språk. Alltså, bristen på data, i form av skrivna texter, är fortfarande en utmaning för många språk.

Den andra sak att tänka på är att LASERN inte kommer att förbli den samma neurala nätet kodbas som är på GitHub idag. I slutsatsen att deras papper, Artetxe och Schwenk skriver att de planerar att byta ut encoder-decoder system de har utvecklats med något som kallas en “Transformator” som används av Google ‘ s BERT.

“Dessutom,” skriver de, “vi skulle vilja att utforska möjliga strategier för att utnyttja enspråkiga data utbildning utöver parallella korpusar, som använder pre-utbildade ord embeddings, backtranslation, eller andra idéer från oövervakad maskinöversättning.”

Tidigare och relaterade täckning:

Vad är AI? Allt du behöver veta

En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.

Vad är djupt lärande? Allt du behöver veta

Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.

Vad är lärande? Allt du behöver veta

Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.

Vad är cloud computing? Allt du behöver veta om

En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.

Relaterade Ämnen:

Utvecklare

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem