Se opp, GPT-3, her kommer AI21s 'Jurassic' språkmodell

0
103

 Tiernan Ray

Av Tiernan Ray | 11. august 2021 – 15:21 GMT (16:21 BST) | Tema: Kunstig intelligens

Hva er større enn et program for behandling av naturlig språk på 175 milliarder parametere?

Et program på 178 milliarder parametere, selvfølgelig. Dette er bare ett av attributtene til Jurassic, et dataprogram som ble introdusert onsdag av Tel Aviv-basert kunstig intelligens oppstart AI21 Labs.

GPT-3, selvfølgelig, er språkprogrammet fra San Francisco-baserte oppstart OpenAI som rystet verden i 2020 ved å generere setninger og hele artikler som virket ganske menneskelignende. GPT-3 sjokkerte også verden ved å bli holdt inne i et ganske restriktivt beta-testarrangement av OpenAI.

AI21 lover å gå OpenAI ikke en bedre, men to bedre, med det den hevder er overlegne referanseresultater på en test kjent som “få skuddlæring”, og et mer åpent program for betatestere.

På sistnevnte poengsum gjør AI21 utviklingsbruk av programmet tilgjengelig som en “åpen beta”, sa det, hvor alle kan registrere seg for å bruke programmet, og det er “ingen venteliste.” < /p>

Imidlertid er mengden tekstgenerering begrenset i betamodellen. For å distribuere produksjonskvalitetskode som kan tjene forutsigelser på forespørsel, må partene sende inn en søknad om kommersiell service og bli godkjent av AI21.

Man bruker deretter AI21s utviklingsprogram, AI21 Studio, til å utvikle og distribuere tilpassede språkmodeller.

Oppstarten, hvis navn står for “AI for det 21. århundre”, har noen tunge hitters blant sine ledere og rådgivere. .

Også: Hva er GPT-3? Alt bedriften din trenger å vite om OpenAIs banebrytende AI -språkprogram

Grunnleggerne er professor ved Stanford University Yoav Shoham, som fungerer som co-CEO; serieentreprenør Ori Goshen, den andre administrerende direktøren; og Amnon Shashua, som er administrerende direktør i Intels Mobileye-enhet som lager sjetonger for selvkjørende biler, og som også er informatikkprofessor ved det hebraiske universitetet i Jerusalem og har mange maskinlæringsprosjekter i sitt navn.

Rådgivere inkluderer Sebastian Thrun, en pioner innen autonome kjøretøyer, og Chris Ré, professor ved Stanford University og en av grunnleggerne av AI-datamaskinprodusenten SambaNova Systems.

AI21 har mottatt 35,4 millioner dollar i to runder med venturefinansiering.

I tillegg til pressemeldingen la AI21 ut en hvitbok som beskriver Jurassics arkitektur og referanseresultater mot GPT-3. Denne artikkelen er skrevet av co-CEO Shoham, sammen med AI21-ansatte Opher Lieber, Or Sharir og Barak Lenz.

Papiret beskriver arkitekturen til Jurassic, oppsettet av forskjellige funksjonelle elementer. I de fleste henseender kopierer Jurassic det OpenAI gjorde i GPT-3, med en nøkkelavgang.

Avgangen ble muliggjort av en teoretisk innsikt brakt av Shashua og kolleger ved hebraisk universitet som ble presentert på fjorårets Neurips AI -konferanse.

Denne forskningen, ledet av Yoav Levine, sammen med Shashua, Noam Wies, Or Sharir og Hofit Bata, hevder at det er en viktig avveining i nevrale nettverk mellom det som kalles bredde og dybde.

Nevral nettverksdybde er antall lag med kunstige nevroner som et gitt stykke inngangsdata behandles i rekkefølge. Midtpunktet i “dyp læring” -former av AI er mange flere lag, derav større dybde. OpenAIs GPT-3, i sin “kanoniske” form, med 175 milliarder parametere, har en dybde på 96 lag.

 ai21-jurassic

Bredde, derimot , er dimensjonen til vektoren som lagrer en representasjon av en inngang. For GPT-3 er det vanligvis en vektor med dimensjoner på 12 288.

I Levine og teamets forskning fant de at for mange lag kan føre til reduserte resultater for et dypt læringsprogram av typen “selvoppmerksomhet”, som er hva GPT-3 er, og alle slike programmer er alle bygget på originalen Transformatorprogram fra Google.

Når de uttrykker det “for en gitt nettverksstørrelse”, som betyr antall parametere, “kan et bestemt nettverk være for grunt, slik vi spådde teoretisk og bekreftet empirisk ovenfor, men det kan også være for dypt. ” Derfor konkluderer Levine og team med at det er en optimal dybde-bredde-balanse i konstruksjonen av et naturspråkprogram.

Det er denne innsikten som AI21s Shoham og kolleger beskriver i sitt papir. “For et gitt parameterbudsjett er det en optimal dybde.” Spesielt erstatter de GPT-3s 96 lag med bare 76 lag, og de erstatter vektorbredden til GPT-3 på 12 288 med en bredde på 13 824.

Også: AI på seksti sekunder

I følge Levine -forskningen skulle dette til syvende og sist gi Jurassic det som kalles større “ekspressivitet”, som bør være kvaliteten på språkuttaket. Det AI21-forskerne observerer er imidlertid “en betydelig gevinst i kjøretidsytelse” når de kjører programmet på en GPU versus GPT-3:

Ved å flytte beregningsressurser fra dybde til bredde, kan flere operasjoner utføres parallelt (bredde) i stedet for sekvensielt (dybde). Dette er spesielt relevant for tekstgenerering der tokens behandles en om gangen, og det er derfor mindre mulighet for parallellisering, noe som resulterer i suboptimal GPU-utnyttelse. I våre benchmarks, som sammenligner vår arkitektur med GPT-3 175B på den samme maskinvarekonfigurasjonen, har arkitekturen beskjedne fordeler i treningstid (1,5% hurtighet per iterasjon), men betydelige driftstidsgevinster i batchinferens (7%) og tekstgenerering (26 %).

En ting til som Shoham og teamet gjorde med Jurassic var å øke vokabularets størrelse, antall unike tokens som programmet kan innta og holde styr på, fra de 50 000 som GPT-3 bruker til 256 000. De gikk også utover å bruke tokens som bare ord til å bruke “vokabularelementer”, som de kaller dem, der enhetene “inneholder en rik blanding av ordstykker, hele ord og flerordsuttrykk.”

Igjen siterer arbeidet til Levine og team, argumenterer AI21 -forskerne for at slik fleksibel bruk av tokens er “nærmere tilpasset tekstens semantiske enheter, inkludert både navngitte enheter og vanlige setninger”, og tilbyr dermed “flere fordeler, som f.eks. mer prøveeffektiv opplæring. “

De flere fordelene inkluderer det som ser ut til å være et stort løft i tester i forhold til GPT-3. De leverer data som hevder at Jurassics 178 milliarder parametere er nøyaktig sammenlignbare med GPT-3 i det som kalles “zero-shot” -oppgaver, der det ikke er gitt noen eksempler på menneskelig skriving ved testtid til programmet.

Shoham og teamets hovedfokus er imidlertid hvor GPT-3 spesielt utmerker seg, som er tester kjent som “få-skuddlæring”, der flere eksempler først skrives av en person, og språkprogrammet produserer utdata ved i utgangspunktet å fortsette mønsteret til disse eksemplene.

Tenk på det gamle spillet av analogier, “Microsoft er til stasjonære datamaskiner som Apple er til telefoner, og Burger King er til burgere som Kentucky Fried Chicken er til ______”, og språkprogrammet må finne ut hva slags svar som blir spurt for in the blank basert på mønsteret av relasjoner. Det er få skudd, og det kan gjøres for mange typer oppgaver, inkludert ja-nei spørsmålssvar og flervalgsspørsmål.

Her hevder forfatterne fordelene ved den mer fleksible bruken av tokens. “En av fordelene er at i få-shot læringsinnstillinger kan flere treningseksempler passe inn i meldingen.” Som et resultat, med det samme totale antallet opplæringseksempler som gitt GPT-3, hevder de større nøyaktighet, spesielt fordi flere eksempler kan passe inn i meldingen.

Til tross for at de hevder det de mener er overlegne resultater, Shoham og team bemerker på forhånd at “evaluering av få-shot-læring er notorisk vanskelig, og å være gjenstand for det vonde av rask valg.”

Derfor utviklet Shoham og team en testpakke for å løse slike utfordringer på den måten at veldig store modeller blir benchmarket mot hverandre. De har lagt den koden på GitHub.

Selv om testresultatene sannsynligvis vil bli gransket på mange forskjellige måter når folk sparker i dekkene, ser det ut til at målet med AI21 er å ha bygget en mer tilgjengelig GPT-3 på den andre siden av OpenAI-veggen , som bedrift å dra fordel av ønsket om at mange brukere skal få tilgang til muligheten.

må lese

 Etikk for AI: Fordeler og risiko ved kunstig intelligens

Etikk for AI: Fordeler og risiko ved kunstig intelligens

Den økende omfanget av AI øker innsatsen for store etiske spørsmål.

Les mer

Relaterte emner:

Utvikler Digital Transformation CXO Internet of Things Innovation Enterprise Software  Tiernan Ray

Av Tiernan Ray | 11. august 2021 – 15:21 GMT (16:21 BST) | Tema: Kunstig intelligens