Facebook åbne kilder tower of Babel, Klingon ikke understøttet

0
137

Som det sagnomspundne tårn i Babel, AI-forskere har i årevis forsøgt at finde en matematisk repræsentation, der ville indkapsle alle naturlige sprog. De får tættere

Tirsdag, Facebook annoncerede det er open-sourcing “LASER”, en PyTorch værktøj til “Sprog-Agnostisk Sætning Repræsentationer.”

Den kode, der ligger til grund for en fantastisk forskning rapport Facebook sluppet løs i December, med titlen, “Massivt Flersproget Sætning Embeddings for Nul-Shot tværsproglig Overførsel og Videre.” Arbejdet viste, hvordan Facebook blev i stand til at træne en enkelt neurale netværk model til at repræsentere strukturen af 93 forskellige sprog i 34 forskellige alfabeter.

Denne forskning var i stand til at udvikle et fælles “repræsentation”, en matematisk transformation af sætninger, i form af vektorer, der indkapsler strukturelle ligheder på tværs af de 93 sprog. At en enkelt matematisk vektor model, der er fælles for 93 sprog blev derefter brugt til at træne computeren på flere opgaver, hvor det var til at matche sætninger mellem par af sprog, at det aldrig havde set før, såsom russisk, Swahili, en bedrift, der er kendt i branchen som “nul-shot” at lære sprog.

Også: Kina ‘ s AI-forskere underviser i et neuralt net til at uddanne sig

facebook-ai-laser-encoder-decoder-2019.png

Den neurale netværksmodel af encoder og decoder, ved hjælp af LSTM kredsløb.

Facebook AI Forskning

“Semantisk lignende sætninger på forskellige sprog, er tæt på i det efterfølgende indlejring plads,” er en teknisk måde at beskrive repræsentation.

Som de forklarer det, en stor motivation for arbejdet, der er “de håber, at sprog med begrænsede ressourcer drage fordel af fælles uddannelse i mange sprog.”

Det sagt, er der stadig begrænsninger her: Klingon er udtrykkeligt ikke understøttes, for eksempel. Og Jiddisch, mens der i prisen for test-formål i et supplerende tiltag, har for få tekster til at opnå bemærkelsesværdige resultater med disse værktøjer.

Kode, der er lagt på GitHub, du får, hvad kaldes en “encoder-decoder” neurale netværk, som er bygget ud i såkaldt Lang og Kort Sigt Hukommelse (LSTM) neurale net, en arbejdshest af tale og tekst-behandling.

Som forfattere, Michael Artetxe og Holger Schwenk, med Facebook AI Forskning, der er beskrevet i deres December artikel (udgivet på arXiv pre-print server), de byggede på tidligere tilgange, der søger at finde en sætning “indlejring”, en repræsentation af den sætning, i vektor vilkår.

Et punktum i en af de 93 “kilde” sprog er fed i et parti af den LSTMs. De vender den sætning ind i en vektor af fast længde. En tilsvarende LSTM kaldes en dekoder forsøger at udvælge den sætning, i enten engelsk eller spansk, som svarer i henhold til den kilde, punktum. Ved at træne på mange tosprogede tekster, såsom “OpenSubtitles2018,” en samling af film undertekster på 57 sprog, encoder bliver bedre og bedre til at skabe et enkelt matematisk indlejring, eller repræsentation, der hjælper dekoder finde den rigtige matchende engelsk eller spansk sætning.

Også: MIT ups ante i at få en AI til at undervise en anden

Når denne uddannelse fase er afsluttet, dekoderen er smidt væk, og de encoder eksisterer som en enkelt uberørte LSTM i hvilke sprog, der kan hældes til at være output på et andet sprog på en række tests.

For eksempel, ved hjælp af et data sæt af tosprogede sætninger, at støtte dansk og 14 sprog, som er udviklet af Facebook i 2017, kaldet “XNLI,” test af, om systemet kan sammenligne sætninger på tværs af nye sprogpar, som fransk og Kinesisk. Selv om der har været nogen eksplicit uddannelse mellem fransk og Kinesisk, universal encoder er i stand til at uddanne en klassifikator neurale net til at sige, om den sætning i det franske indebærer, at en given sætning på Kinesisk, eller modsiger det.

codeblog-embedding-space-v4.png

LASER system “kort” sprog til en fælles “forankring.”

Facebook AI Forskning

På tværs af disse og en række andre tests, Artetxe og Schwenk rapporterer, at de har toppet ikke kun Facebook ‘s tidligere indsats, men også dem af Google’ s AI-hold, der i oktober rapporterede deres benchmark resultater for en encoder, der kaldes “BERT.”

(Et blog-indlæg, der annoncerer kode udgivelse har yderligere detaljer om arbejdet.)

Artetxe og Schwenk bærer på den tradition for encoder-decoder arbejde, der har stået på i årevis nu. Nogle af disse modeller har været udbredt til sprogbehandling, som Ilya Sutsekever “seq2seq” netværket, der er udviklet i 2014 på Google.

Også: Google foreslår, at alle software kunne bruge en lille robot, AI

Og det overordnede mål om at forsøge til en enkelt fælles repræsentation af alle sprog har en rig historie i de seneste år. Ethos “dyb læring,” er, at en repræsentation af enhver form for oplysninger, der er rigere, hvis der er “begrænsninger”, der anvendes til repræsentation. At gøre en neurale net lift 93 sprog er en temmelig alvorlig tvang.

Google ‘ s “Neurale Maskine Oversættelse”, som blev indført i 2016, var de også forsøger at bevise en slags universel repræsentation. Forskere, der konstrueres således, at systemet skrev i 2017, at deres arbejde foreslået “beviser for en interlingua”, en “fælles repræsentation” mellem sprog.

Men Google bruges encoder-dekodere til fælles oversættelse par, som engelsk og fransk. LASER tilgang, at skabe et enkelt målesystem for 93 sprog, bevæger sig langt ud over, hvad der er blevet gjort hidtil.

codeblog-languages-v4.png

Den encoder kan matche sætninger mellem sprog-par, hvor det ikke var uddannet til.

Facebook AI Forskning

Skal læse

“AI er meget, meget dum, “siger Google’ s AI leder CNETBaidu skaber Kunlun silicium til AISamlet Google AI division et klart signal om, at AI ‘ s fremtidige TechRepublic

Husk på, et par begrænsninger, før du hente koden og komme i gang. Den ene er, at kun nogle af de 93 sprog har tilstrækkelig uddannelse og test af data for at gøre det muligt real evalueringer, sådan som de 14 sprog i XLNI benchmark suite. Forfatterne kommer med deres egen corpus af 1.000 sætningspar til 29 ekstra sprog ikke er inkluderet i 93. De omfatter Jiddisch, det Frisiske sprog i Holland, mongolsk, og Gamle engelske, men resultaterne kommer til kort over for de andre sprog. Derfor, mangel på data, i form af skrevne tekster, er stadig en udfordring for mange sprog.

Den anden ting at huske på er, at LASER vil ikke være den samme neurale net-kode base, der er på GitHub i dag. I den konklusion, at deres papir, Artetxe og Schwenk skriver, at de planlægger at erstatte den encoder-decoder system de har udviklet sig med noget, der kaldes en “Transformer”, der anvendes af Google ‘ s BERT.

“Desuden,” skriver de, “vi ville gerne undersøge mulige strategier til at udnytte etsprogede træning data i tillæg til et parallelt korpus, som ved hjælp af pre-uddannet ord embeddings, backtranslation, eller andre ideer fra maskinen uden opsyn oversættelse.”

Tidligere og relaterede dækning:

Hvad er AI? Alt, hvad du behøver at vide

En executive guide til kunstig intelligens, fra machine learning og generelt AI til neurale netværk.

Hvad er dyb læring? Alt, hvad du behøver at vide

Den lowdown på en dyb læring: fra hvordan det relaterer til det bredere felt af machine learning igennem til, hvordan du kommer i gang med det.

Hvad er machine learning? Alt, hvad du behøver at vide

Denne vejledning forklarer, hvad machine learning er, hvordan det er relateret til kunstig intelligens, hvordan det fungerer, og hvorfor det er vigtigt.

Hvad er cloud computing? Alt, hvad du behøver at vide om

En introduktion til cloud computing-lige fra det grundlæggende op til IaaS og PaaS, hybrid, offentlige og private cloud.

Relaterede Emner:

Udvikler

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software