Facebook ‘ s senaste jätte språk AI träffar computing väggen på 500 Nvidia GPUs

0
167
fb-xlmr-neural-net-nov-2019.jpg

Facebook är jätte “XLM-R” neurala nätverk är konstruerade för att arbeta i word problem över 100 olika språk, inklusive Swahili och ungerska Urdu, men det går upp mot design och begränsningar med hjälp av 500 av Nvidias världsklass Grafikprocessorer.

Tiernan Ray för ZDNet

Med en tendens till större och större modeller, state-of-the-art artificiell intelligens forskning fortsätter att köra upp mot de begränsningar av konventionella design och teknik.

Det är ett av resultaten av den senaste mammut arbete som forskare på Facebook AI team. Förra veckan publicerade de en rapport om sin uppfinning, XLM-R, ett naturligt språk, som bygger på den omåttligt populära Transformator modell från Google.

Papper, Oövervakad Cross-lingual Representation Lärande i stor Skala, inlagd på arXiv, är författad av Alexis Conneau, Kartikay Khandelwal Naman, Goyal Vishrav, Chaudhary Guillaume, Wenzek Francisco Guzmán, Edouard Graven, Myle Ott, Lukas Zettlemoyer, och Veselin Stoyanov, alla med Facebook AI-Forskning.

XLM-R är konstruerad för att kunna utföra översättningar mellan hundra olika språk. Det bygger på arbete som Conneau gjorde tidigare i år med Guillaume Lample på Facebook, skapandet av den första XLM. Det är mest lik, skriver de, att ett system visat tidigare i år av Google forskare som gjorde cross-lingual utbildning på 103 språk.

Också: Facebook öppna källor babels torn, Klingonska inte stöds

Det är en stor förbättring jämfört med de tidigare försök på olika riktmärke uppgifter som att svara på frågan mellan språk. Det gör spännande framsteg, i synnerhet, med vad som kallas för “lågt-medel” språk, som inte har en hel del textmaterial för dem, till exempel Swahili och Urdu.

Men XLM-R kör in resurser, trots att fem hundra av Nvidias mest kraftfulla Grafikprocessorer. Författarna hänvisar till den “förbannelse multilinguality.” När du saker mer och mer språk i en enda end-to-end-Transformator, låg-resurs språk dra nytta av att vara i soppan, men vid en viss punkt, allt träffar ett tak.

Det beror på när XLM-R är stor-det har 24 lager och 16 “obs huvuden” och 550 miljoner parametrar — det fortfarande har en begränsad kapacitet. Vid en viss punkt, det kan hantera allt det blir ombedd att göra.

“Modell kapacitet (det vill säga antalet parametrar i modellen) är begränsad på grund av praktiska överväganden, såsom minne och hastighet under utbildning och inferens,” skriver författarna.

Också: Googles senaste språket maskinen sätter fokus tillbaka på språket

XLM-R ombeds att hantera en enorm mängd data utbildning, 2.5 biljoner byte av data som samlats in från webben med hjälp av CommonCrawl program. Det är inte ens att XLM-R är det största nätverket som finns. OpenAI är GPT2, som infördes tidigare i år, är 48 lager och 1,5 miljarder parametrar i sin största version. Nätverk för att få större och större, som Facebook: s chef för PyTorch, Joe Spisak, berättade ZDNet tidigare i år.

facebook-ai-language-models-nov-2019.png

Facebook är “XLM-R” är inte den största nätverk runt om i termer av den totala parameter storlek eller antal lager, men det gör det sticker ut för att ägna en hel del av dess parametrar för “tokens”, vilket vokabulär som det fungerar mindre av, på 250.000 totalt polletter.

Facebook AI

Men XLM-R kör upp mot några särskilda begränsningar, såsom hur stort ordförråd kan rymmas. Författarna har byggt med 250,000 “tokens” som utgångspunkt, som är redan större än GPT-2 s med 50 000 inträden, men de vet XLM-R kan bli bättre om man har många fler polletter, vilket innebär att ett större ordförråd.

Relaterade Ämnen:

Big Data Analytics

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem