Med en tendens til større og større machine learning modeller, state-of-the-art kunstig intelligens forskning fortsætter med at køre op mod de begrænsninger af konventionelle design og teknologi.
Det er et resultat af den seneste gigantisk stykke arbejde af forskere på Facebook ‘ s AI-holdet. I sidste uge offentliggjorde en rapport om deres opfindelse, XLM-R, et naturligt sprog model baseret på den vildt populære Transformer model fra Google.
Papiret, være alene tværsproglig Repræsentation Læring på højt plan, udgivet på arXiv, er forfattet af Alexis Conneau, Kartikay Khandelwal Naman, Goyal Vishrav, Chaudhary Guillaume, Wenzek Francisco Guzmán, Edouard Grav, Myle Ott, Luke Zettlemoyer, og Veselin Stoyanov, alle med Facebook AI Forskning.
XLM-R er skabt til at være i stand til at udføre oversættelser mellem hundrede forskellige sprog. Det bygger på arbejde, der Conneau gjorde tidligere dette år med Guillaume Lample på Facebook, oprettelsen af det første XLM. Det er mest ens, de skriver, at et system, der blev vist tidligere på året af Google forskere, der gjorde tværsproglig uddannelse på 103 sprog.
Også: Facebook åbne kilder tower of Babel, Klingon ikke understøttet
Det er en stor forbedring i forhold til de forudgående indsats på forskellige benchmark opgaver som spørgsmål at svare mellem sprog. Det gør det spændende udvikling, navnlig med det, der kaldes “lav-ressource” sprog, dem, der ikke har en masse af tekstmateriale til dem, som Swahili og Urdu.
Men XLM-R kører i ressourcemæssige begrænsninger til trods for at bruge fem hundrede af Nvidia ‘s kraftigste Gpu’ er. Forfatterne refererer til den “forbandelse multilinguality.” Som du ting, flere og flere sprog i en enkelt ende-til-ende Transformer, lav-ressource sprog fordel af at være i suppen, men på et tidspunkt, alt hvad rammer et loft.
Det er fordi, mens XLM-R er stor-det har 24 lag og 16 “opmærksomhed hoveder” og 550 millioner parametre — det stadig har en begrænset kapacitet. På et tidspunkt, det kan håndtere alt det ‘ s bliver bedt om at gøre.
“Model kapacitet (det vil sige antallet af parametre i modellen), der er fikseret på grund af praktiske overvejelser såsom hukommelse og hastighed under træning og slutning,” skriver forfatterne.
Også: Google ‘ s seneste sprog maskine sætter fokus tilbage på sprog
XLM-R er blevet bedt om at håndtere en enorm mængde af træning data, 2.5 milliarder bytes af data indsamlet fra web ved hjælp af den CommonCrawl program. Det er ikke engang, at XLM-R er det største netværk derude. OpenAI er GPT2, der blev præsenteret tidligere i år, er 48 lag og 1,5 milliarder parametre i sin største version. Netværk bliver større og større, som Facebook er leder af PyTorch, Joe Spisak, fortalte ZDNet tidligere i år.
Men XLM-R kører op mod nogle specifikke grænser, såsom hvor stort et ordforråd, der kan imødekommes. Forfatterne har bygget det med 250,000 “tokens”, som den baseline, der er allerede større end GPT-2 s 50,000 tokens, men de ved, XLM-R kan få det bedre, hvis det har mange flere poletter-hvilket betyder, at et større ordforråd.
Relaterede Emner:
Big Data Analytics
Digital Transformation
CXO
Tingenes Internet
Innovation
Virksomhedens Software