Met een trend naar steeds grotere machine learning modellen, state-of-the-art kunstmatige intelligentie onderzoek blijft oplopen tegen de grenzen van conventionele computing-technologie.
Dat is een van de resultaten van de laatste mammoet stuk van het werk van de onderzoekers aan Facebook ‘ s team. Vorige week publiceerden ze een verslag van hun uitvinding, XLM-R, is een natuurlijke taal model gebaseerd op de razend populaire Transformer model van Google.
Het papier, zonder Toezicht Cross-lingual Vertegenwoordiging Leren op Schaal, geplaatst op arXiv, is geschreven door Alexis Conneau, Kartikay Khandelwal Naman, Goyal Vishrav, Chaudhary Guillaume, Wenzek Francisco Guzmán, Edouard Graf, Myle Ott, Lucas Zettlemoyer, en Veselin Stoyanov, alle met Facebook AI-Onderzoek.
XLM-R is ontworpen om te worden in staat om vertalingen uit te voeren tussen honderd verschillende talen. Het bouwt voort op het werk dat Conneau deed eerder dit jaar met Guillaume Lample op Facebook, de schepping van de eerste XLM. Het is het meest vergelijkbaar, schrijven ze, naar een systeem dat eerder dit jaar door Google onderzoekers dat deed cross-language training op 103 talen.
Ook op: Facebook open bronnen toren van Babel, het Klingon niet ondersteund
Het is een grote verbetering ten opzichte van die voorafgaande inspanningen van diverse benchmark taken uitvoeren, zoals de vraag te beantwoorden tussen talen. Het maakt intrigerende vooruitgang, in het bijzonder, met de zogenaamde “low-resource’ talen, degenen die hebben niet veel van tekstueel materiaal voor hen, zoals het Swahili en het Urdu.
Maar XLM-R loopt in beperkte middelen, ondanks het gebruik van vijfhonderd van Nvidia ‘s meest krachtige Gpu’ s. De auteurs verwijzen naar de “vloek van multilinguality.” Als je dingen meer en meer talen in één end-to-end Transformer, de low-resource talen voordeel in de soep, maar op een gegeven moment alles tegen een plafond.
Dat is omdat, terwijl XLM-R is groot — het heeft een 24 lagen en 16 “aandacht hoofden” en 550 miljoen parameters — het heeft nog steeds een eindige capaciteit. Op een bepaald punt, hij kan alles hij wordt gevraagd om te doen.
“Model capaciteit (dat wil zeggen het aantal parameters in het model) is beperkt vanwege praktische overwegingen, zoals het geheugen en de snelheid tijdens de training en afleiding,” de auteurs schrijven.
Ook: Google ‘ s nieuwste taal machine nadruk legt terug op taal
XLM-R wordt gevraagd om het verwerken van een enorme hoeveelheid trainingsdata, 2.5 triljoen bytes aan gegevens verzameld vanaf het web met behulp van de CommonCrawl programma. Het is niet eens dat XLM-R is het grootste netwerk er uit. OpenAI de GPT2, introduceerde eerder dit jaar, is 48 lagen en 1,5 miljard parameters in de grootste versie. Netwerken worden steeds groter en groter, zoals Facebook het hoofd van de PyTorch, Joe Spisak, vertelde ZDNet eerder dit jaar.
Maar XLM-R wordt uitgevoerd tegen een aantal specifieke concentratiegrenzen, zoals hoe groot de woordenschat kan worden ondergebracht. De auteurs gebouwd met 250.000 “tokens” als de baseline, die is al groter dan GPT-2 de 50.000 lopers, maar ze weten XLM-R kan beter op als het heeft veel meer lopers — de betekenis van een grotere woordenschat.
Verwante Onderwerpen:
Big Data Analytics
Digitale Transformatie
CXO
Het Internet van Dingen
Innovatie
Enterprise Software