Pas på, GPT-3, her kommer AI21s 'Jurassic' sprogmodel

0
131

 Tiernan Ray

Af Tiernan Ray | 11. august 2021 – 15:21 GMT (16:21 BST) | Emne: Kunstig intelligens

Hvad er større end et program til behandling af naturligt sprog med 175 milliarder parametre?

Et program på 178 milliarder parametre, selvfølgelig. Sådan er blot en af ​​attributterne til Jurassic, et computerprogram, der blev introduceret onsdag af Tel Aviv-baseret kunstig intelligens start AI21 Labs.

GPT-3 er naturligvis sprogprogrammet fra San Francisco-baserede opstart OpenAI, der rystede verden i 2020 ved at generere sætninger og hele artikler, der virkede ganske menneskelignende. GPT-3 chokerede også verden ved at blive holdt inde i et temmelig restriktivt betatestarrangement af OpenAI.

AI21 lover at gå OpenAI ikke en bedre, men to bedre, med hvad den hævder er overlegne benchmark -resultater på en test kendt som “få skudlæring” og et mere åbent program for betatestere.

På sidstnævnte score gør AI21 udviklingsbrug af programmet tilgængeligt som en “åben beta”, stod der, hvor alle kan tilmelde sig at bruge programmet, og der er “ingen venteliste.” < /p>

Mængden af ​​tekstgenerering er imidlertid begrænset i betamodellen. For at implementere kode til produktionskvalitet, der kan tjene forudsigelser på forespørgsel, skal parterne indsende en ansøgning om kommerciel service og blive godkendt af AI21.

Man bruger derefter AI21s udviklingsprogram, AI21 Studio, til at udvikle og implementere tilpassede sprogmodeller.

Starten, hvis navn står for “AI for det 21. århundrede”, har nogle tunge hitters blandt sine ledende medarbejdere og rådgivere .

Også: Hvad er GPT-3? Alt, hvad din virksomhed har brug for at vide om OpenAIs banebrydende AI -sprogprogram

Grundlæggerne er professor ved Stanford University Yoav Shoham, der fungerer som co-CEO; serie iværksætter Ori Goshen, den anden CEO; og Amnon Shashua, der er administrerende direktør for Intels Mobileye-enhed, der laver chips til selvkørende biler, og som også er datalogiprofessor ved det hebraiske universitet i Jerusalem og har mange maskinlæringsforskningsprojekter for sit navn.

Rådgivere omfatter Sebastian Thrun, en pioner inden for autonome køretøjer, og Chris Ré, professor ved Stanford University og medstifter af AI-computerproducenten SambaNova Systems.

AI21 har modtaget $ 35,4 millioner i to runder med venturefinansiering.

Ud over pressemeddelelsen offentliggjorde AI21 en hvidbog, der beskriver Jurassics arkitektur og benchmarkresultater mod GPT-3. Dette papir er skrevet af co-CEO Shoham sammen med AI21-medarbejdere Opher Lieber, Or Sharir og Barak Lenz.

Papiret beskriver arkitekturen i Jurassic, dets layout af forskellige funktionelle elementer. I de fleste henseender kopierer Jurassic, hvad OpenAI gjorde i GPT-3, med en enkelt afgang.

Afgangen blev muliggjort af en teoretisk indsigt bragt af Shashua og kolleger ved hebraisk universitet, der blev præsenteret på sidste års Neurips AI -konference.

Denne forskning, ledet af Yoav Levine, sammen med Shashua, Noam Wies, Or Sharir og Hofit Bata, hævder, at der er en vigtig afvejning i neurale netværk mellem det, der kaldes bredde og dybde.

Neural netværksdybde er antallet af lag af kunstige neuroner, gennem hvilke et givet stykke inputdata behandles i rækkefølge. Midtpunktet i “deep learning” former for AI er mange flere lag, derfor større dybde. OpenAIs GPT-3 har i sin “kanoniske” form med 175 milliarder parametre en dybde på 96 lag.

 ai21-jurassic.jpg

Bredde, derimod , er dimensionen af ​​vektoren, der gemmer en repræsentation af et input. For GPT-3 er det typisk en vektor med dimensioner på 12.288.

I Levine og teams forskning fandt de ud af, at for mange lag kan føre til faldende resultater for et dybt indlæringsprogram af typen “selvopmærksomhed”, som er, hvad GPT-3 er, og alle sådanne programmer er alle bygget på originalen Transformatorprogram fra Google.

Som de udtrykker det “for en given netværksstørrelse”, hvilket betyder antallet af parametre, “kan et bestemt netværk være for lavt, som vi forudsagde teoretisk og bekræftet empirisk ovenfor, men det kan også være for dybt. ” Derfor konkluderer Levine og team, at det er en optimal dybde-bredde-balance i konstruktionen af ​​et naturligt sprogprogram.

Det er denne indsigt, AI21's Shoham og kolleger beskriver i deres papir. “For et givet parameterbudget er der en optimal dybde.” Specifikt erstatter de GPT-3's 96 lag med kun 76 lag, og de erstatter vektorbredden på GPT-3 på 12.288 med en bredde på 13.824.

Også: AI på tres sekunder

Ifølge Levine -forskningen skulle dette i sidste ende give Jurassic det, der kaldes større “udtryksfuldhed”, hvilket burde være kvaliteten af ​​dets sproglige output. Hvad AI21-forskerne imidlertid observerer, er “en betydelig gevinst i runtime-ydeevne”, når de kører deres program på en GPU versus GPT-3:

Ved at flytte beregningsressourcer fra dybde til bredde kan flere operationer udføres parallelt (bredde) frem for sekventielt (dybde). Dette er især relevant for tekstgenerering, hvor tokens behandles én ad gangen, og der er derfor mindre mulighed for parallelisering, hvilket resulterer i suboptimal GPU-udnyttelse. I vores benchmarks, der sammenligner vores arkitektur med GPT-3 175B på den samme hardwarekonfiguration, har vores arkitektur beskedne fordele i træningstid (1,5% hurtigere pr. Iteration), men betydelige driftstidsgevinster i batchinference (7%) og tekstgenerering (26 %).

En ting mere, som Shoham og team gjorde med Jurassic, var at øge ordforrådets størrelse, antallet af unikke tokens, som programmet kan indtage og holde styr på, fra de 50.000, som GPT-3 bruger til 256.000. De gik også ud over at bruge tokens som bare ord til at bruge “ordforrådsposter”, som de kalder dem, hvor enhederne “indeholder en rig blanding af ordstykker, hele ord og flerordsudtryk.”

Igen med henvisning til arbejdet i Levine og team argumenterer AI21 -forskerne for, at en så fleksibel brug af tokens er “mere i overensstemmelse med tekstens semantiske enheder, herunder både navngivne enheder og almindelige sætninger”, og giver dermed “flere fordele, f.eks. mere prøveeffektiv træning. “

De flere fordele omfatter, hvad der ser ud til at være et stort løft i testudtagning i forhold til GPT-3. De leverer data, der hævder, at Jurassics 178 milliarder parametre i nøjagtighed kan sammenlignes med GPT-3 i de såkaldte “zero-shot” opgaver, hvor der på testtidspunkt ikke gives et eksempel på menneskelig skrivning til programmet.

Shoham og teams hovedfokus er imidlertid, hvor GPT-3 især udmærker sig, hvilket er tests kendt som “få-shot-læring”, hvor flere eksempler først skrives af en person, og sprogprogrammet producerer output ved stort set at fortsætte mønsteret i disse eksempler.

Tænk på det gamle analogispil, “Microsoft er til stationære computere, som Apple er til telefoner, og Burger King er til burgere, som Kentucky Fried Chicken er til ______”, og sprogprogrammet skal finde ud af, hvilken slags svar der bliver spurgt for in the blank baseret på mønsteret af relationer. Det er få skud, og det kan gøres til mange slags opgaver, herunder ja-nej-besvarelse af spørgsmål og multiple-choice-besvarelse af spørgsmål.

Her hævder forfatterne fordelene ved den mere fleksible brug af tokens. “En af fordelene er, at i få-shot læringsindstillinger kan flere træningseksempler passe ind i prompten.” Som følge heraf hævder de med det samme samlede antal træningseksempler som givet GPT-3 større nøjagtighed, især fordi flere eksempler kan passe ind i prompten.

På trods af at de hævder, hvad de mener er overlegne resultater, Shoham og team bemærker på forhånd, at “evaluering af få-shot-læring er notorisk vanskelig, idet det er underlagt svagheder ved hurtigt valg.”

Derfor udviklede Shoham og team en testpakke til at løse sådanne udfordringer på den måde, at meget store modeller benchmarkes mod hinanden. De har lagt den kode på GitHub.

Selvom testresultaterne sandsynligvis vil blive undersøgt på mange forskellige måder, efterhånden som folk sparker i dækkene, synes det større mål med AI21 at have bygget en mere tilgængelig GPT-3 på den anden side af OpenAI-væggen , som virksomhed at drage fordel af ønsket om, at mange brugere får adgang til kapaciteten.

skal læse

 Ethics of AI: Fordele og risici ved kunstig intelligens

Ethics of AI: Fordele og risici ved kunstig intelligens

Den stigende AI -skala øger indsatsen for store etiske spørgsmål.

Læs mere

Relaterede emner:

Udvikler Digital Transformation CXO Internet of Things Innovation Enterprise Software  Tiernan Ray

Af Tiernan Ray | 11. august 2021 – 15:21 GMT (16:21 BST) | Emne: Kunstig intelligens