Wat is groter dan een natuurlijke taalverwerkingsprogramma van 175 miljard parameters?
Een programma van 178 miljard parameters natuurlijk. Dat is slechts een van de kenmerken van Jurassic, een computerprogramma dat woensdag is geïntroduceerd door AI21 Labs, een startup voor kunstmatige intelligentie uit Tel Aviv.
GPT-3 is natuurlijk het taalprogramma van het in San Francisco gevestigde startup OpenAI die in 2020 de wereld op zijn kop zette door zinnen en hele artikelen te genereren die nogal menselijk leken. GPT-3 schokte ook de wereld door binnen een vrij beperkende bètatestregeling van OpenAI te worden gehouden.
AI21 belooft OpenAI niet één beter, maar twee beter te worden, met wat het beweert superieure benchmarkresultaten te zijn op een test die bekend staat als 'few shot learning' en een meer open programma voor bètatesters.
Wat dat laatste betreft, maakt AI21 ontwikkelingsgebruik van het programma beschikbaar als een “open bèta”, waar iedereen zich kan aanmelden om het programma te gebruiken en er “geen wachtlijst” is.< /p>
De hoeveelheid tekstgeneratie is echter beperkt in het bètamodel. Om code van productiekwaliteit in te zetten die voorspellingen op aanvraag kan dienen, moeten partijen een aanvraag voor commerciële service indienen en worden goedgekeurd door AI21.
Vervolgens gebruikt men AI21's ontwikkelingsprogramma, AI21 Studio, om aangepaste taalmodellen te ontwikkelen en in te zetten.
De startup, wiens naam staat voor “AI voor de 21e eeuw”, heeft een aantal sterke spelers onder het uitvoerend personeel en adviseurs .
Ook: Wat is GPT-3? Alles wat uw bedrijf moet weten over het baanbrekende AI-taalprogramma van OpenAI
De oprichters zijn professor Yoav Shoham aan de Stanford University, die fungeert als co-CEO; serie-ondernemer Ori Goshen, de andere CEO; en Amnon Shashua, de CEO van Intel's Mobileye-eenheid die chips maakt voor zelfrijdende auto's, en die ook professor computerwetenschappen is aan de Hebreeuwse Universiteit in Jeruzalem en veel onderzoeksprojecten op het gebied van machine learning op zijn naam heeft staan.
Adviseurs zijn onder meer Sebastian Thrun, een pionier op het gebied van autonome voertuigen, en Chris Ré, een professor aan Stanford University en mede-oprichter van AI-computermaker SambaNova Systems.
AI21 heeft $ 35,4 miljoen ontvangen in twee rondes van durfkapitaal.
Naast het persbericht plaatste AI21 een witboek waarin de architectuur van Jurassic en de benchmarkresultaten ten opzichte van GPT-3 worden beschreven. Die paper is geschreven door co-CEO Shoham, samen met AI21-stafleden Opher Lieber, Or Sharir en Barak Lenz.
Het document beschrijft de architectuur van Jurassic, de lay-out van verschillende functionele elementen. In de meeste opzichten kopieert Jurassic wat OpenAI deed in GPT-3, met één belangrijk vertrekpunt.
Het vertrek werd mogelijk gemaakt door een theoretisch inzicht van Shashua en collega's van de Hebreeuwse Universiteit dat vorig jaar werd gepresenteerd op de Neurips AI-conferentie.
Dat onderzoek, geleid door Yoav Levine, samen met Shashua, Noam Wies, Or Sharir en Hofit Bata, stelt dat er een belangrijke wisselwerking is in neurale netwerken tussen wat breedte en diepte wordt genoemd.
Neurale netwerkdiepte is het aantal lagen kunstmatige neuronen waardoor een bepaald stuk invoergegevens in volgorde worden verwerkt. Het middelpunt van 'deep learning'-vormen van AI zijn veel meer lagen, dus meer diepgang. OpenAI's GPT-3, in zijn “canonieke” vorm, met 175 miljard parameters, heeft een diepte van 96 lagen.
Breedte daarentegen , is de dimensie van de vector die een weergave van een invoer opslaat. Voor GPT-3 is dat typisch een vector met afmetingen van 12.288.
In het onderzoek van Levine en het team ontdekten ze dat te veel lagen kunnen leiden tot afnemende resultaten voor een diepgaand leerprogramma van het type 'zelfaandacht', wat GPT-3 is, en alle programma's zoals die zijn allemaal gebouwd op het origineel Transformer-programma van Google.
Zoals ze het uitdrukken, “voor een bepaalde netwerkgrootte”, wat betekent, het aantal parameters, “kan een bepaald netwerk te oppervlakkig zijn, zoals we theoretisch voorspelden en hierboven empirisch bevestigden, maar het kan ook te diep zijn.” Daarom concluderen Levine en team dat hun een optimale diepte-breedtebalans is bij de constructie van een natuurlijk taalprogramma.
Het is dit inzicht dat Shoham en collega's van AI21 in hun paper beschrijven. “Voor een gegeven parameterbudget is er een optimale diepte.” In het bijzonder vervangen ze de 96 lagen van GPT-3 door slechts 76 lagen, en ze vervangen de vectorbreedte van GPT-3 van 12.288 door een breedte van 13.824.
Ook: AI in zestig seconden
Volgens het Levine-onderzoek zou dit Jurassic uiteindelijk meer 'expressiviteit' moeten geven, wat de kwaliteit van zijn taaloutput zou moeten zijn. Wat de AI21-onderzoekers echter waarnemen, is “een aanzienlijke winst in runtime-prestaties” bij het uitvoeren van hun programma op een GPU versus GPT-3:
Door rekenresources van diepte naar breedte te verschuiven, kunnen meer bewerkingen parallel (breedte) in plaats van sequentieel (diepte) worden uitgevoerd. Dit is met name relevant voor het genereren van tekst waarbij tokens één voor één worden verwerkt, en er dus minder gelegenheid is voor parallellisatie, wat resulteert in suboptimaal GPU-gebruik. In onze benchmarks, waarbij onze architectuur wordt vergeleken met GPT-3 175B op dezelfde hardwareconfiguratie, heeft onze architectuur bescheiden voordelen in trainingstijd (1,5% versnelling per iteratie), maar aanzienlijke runtimewinsten in batchinferentie (7%) en tekstgeneratie (26 %).
Nog een ding dat Shoham en het team met Jurassic deden, was het vergroten van de woordenschat, het aantal unieke tokens dat het programma kan opnemen en bijhouden, van de 50.000 die GPT-3 gebruikt tot 256.000. Ze gingen ook verder dan het gebruik van tokens als alleen woorden, maar gebruikten 'vocabulaire-items', zoals ze ze noemen, waarbij de eenheden 'een rijke mix van woordstukken, hele woorden en uitdrukkingen met meerdere woorden bevatten'.
Opnieuw verwijzend naar het werk van Levine en team, beweren de AI21-onderzoekers dat een dergelijk flexibel gebruik van tokens “nauwer is afgestemd op de semantische eenheden van de tekst, inclusief zowel benoemde entiteiten als veelvoorkomende zinnen”, en dus “verschillende voordelen biedt, zoals meer monster-efficiënte training.”
De verschillende voordelen omvatten wat een grote boost lijkt te zijn in het nemen van tests ten opzichte van GPT-3. Ze leveren gegevens die beweren dat de 178 miljard parameters van Jurassic qua nauwkeurigheid vergelijkbaar zijn met GPT-3 in zogenaamde “zero-shot”-taken, waarbij tijdens de test geen voorbeeld van menselijk schrijven aan het programma wordt gegeven.
De belangrijkste focus van Shoham en het team is echter waar GPT-3 in het bijzonder in uitblinkt, namelijk tests die bekend staan als 'enkelvoudig leren', waarbij verschillende voorbeelden eerst door een persoon worden getypt, en het taalprogramma produceert output door in feite het patroon van die voorbeelden voort te zetten.
Denk aan het oude spel van analogieën, “Microsoft is voor desktopcomputers zoals Apple is voor telefoons, en Burger King is voor hamburgers zoals Kentucky Fried Chicken voor ______”, en het taalprogramma moet uitzoeken wat voor soort antwoord wordt gevraagd voor in de blanco gebaseerd op het patroon van relaties. Dat is weinig kans, en het kan voor veel soorten taken worden gedaan, waaronder ja-nee-vragen beantwoorden en meerkeuzevragen beantwoorden.
Hier claimen de auteurs de voordelen van dat meer flexibele gebruik van tokens. “Een van de voordelen is dat in een leeromgeving met een paar schoten meer trainingsvoorbeelden in de prompt passen.” Als gevolg hiervan claimen ze, met hetzelfde totale aantal trainingsvoorbeelden als gegeven GPT-3, een grotere nauwkeurigheid, met name omdat er meer voorbeelden in de prompt kunnen passen.
Ondanks dat ze beweren dat ze superieure resultaten zijn, heeft Shoham en het team merkt vooraf op dat “de evaluatie van het leren van een paar schoten notoir lastig is, omdat het onderhevig is aan de grillen van een snelle keuze.”
Daarom hebben Shoham en het team een testsuite ontwikkeld om dergelijke uitdagingen aan te pakken, zodat zeer grote modellen met elkaar worden vergeleken. Ze hebben die code op GitHub geplaatst.
Hoewel de testresultaten waarschijnlijk op veel verschillende manieren zullen worden onderzocht als mensen tegen de banden trappen, lijkt het grotere doel van AI21 te zijn om een meer toegankelijke GPT-3 te hebben gebouwd aan de andere kant van de OpenAI-muur , om als bedrijf te profiteren van de wens van veel gebruikers om toegang te krijgen tot de mogelijkheid.
moet lezen
Ethiek van AI: voordelen en risico's van kunstmatige intelligentie
De toenemende schaal van AI verhoogt de inzet voor belangrijke ethische vragen.
Lees meer
Verwante onderwerpen:
Ontwikkelaar Digitale Transformatie CXO Internet of Things Innovatie Enterprise Software
Door Tiernan Ray | 11 augustus 2021 — 15:21 GMT (16:21 BST) | Onderwerp: Kunstmatige Intelligentie