Vad är större än ett program för bearbetning av naturligt språk med 175 miljarder parametrar?
Ett program på 178 miljarder parametrar, förstås. Detta är bara ett av attributen för Jurassic, ett datorprogram som introducerades onsdag av Tel Aviv-baserade artificiella intelligensstart AI21 Labs.
GPT-3 är naturligtvis språkprogrammet från San Francisco-baserade start OpenAI som skakade världen 2020 genom att generera meningar och hela artiklar som verkade ganska mänskliga. GPT-3 chockade också världen genom att hållas inne i ett ganska restriktivt betatestarrangemang av OpenAI.
AI21 lovar att gå OpenAI inte ett bättre, men två bättre, med vad det hävdar är överlägsna jämförelseresultat på ett test som kallas “få skottinlärning” och ett mer öppet program för betatestare.
På den senare poängen gör AI21 utvecklingsanvändning av programmet tillgängligt som en “öppen beta”, stod det där alla kan registrera sig för att använda programmet och det finns “ingen väntelista.” < /p>
Mängden textgenerering är dock begränsad i betamodellen. För att distribuera produktionskvalitetskod som kan tjäna förutsägelser på begäran måste parterna lämna in en ansökan om kommersiell service och godkännas av AI21.
Man använder sedan AI21: s utvecklingsprogram, AI21 Studio, för att utveckla och distribuera skräddarsydda språkmodeller.
Starten, vars namn står för “AI för det 21: a århundradet”, har några tunga hitters bland sina ledande medarbetare och rådgivare. .
Också: Vad är GPT-3? Allt ditt företag behöver veta om OpenAIs banbrytande AI -språkprogram
Grundarna är professor vid Stanford University Yoav Shoham, som fungerar som co-CEO; serieentreprenören Ori Goshen, den andra VD; och Amnon Shashua, som är VD för Intels Mobileye-enhet som tillverkar chips för självkörande bilar, och som också är professor i datavetenskap vid hebreiska universitetet i Jerusalem och har många maskininlärningsprojekt för sitt namn.
Rådgivare inkluderar Sebastian Thrun, en pionjär inom autonoma fordon, och Chris Ré, professor vid Stanford University och en av grundarna till AI-datortillverkaren SambaNova Systems.
AI21 har fått 35,4 miljoner dollar i två omgångar med venture -finansiering.
Förutom pressmeddelandet publicerade AI21 en vitbok som beskriver Jurassics arkitektur och benchmarkresultat mot GPT-3. Den uppsatsen är skriven av co-CEO Shoham, tillsammans med AI21-anställda Opher Lieber, Or Sharir och Barak Lenz.
Tidningen beskriver Jurassics arkitektur, dess layout av olika funktionella element. I de flesta avseenden kopierar Jurassic vad OpenAI gjorde i GPT-3, med en nyckelavgång.
Avgången möjliggjordes av en teoretisk insikt från Shashua och kollegor vid hebreiska universitetet som presenterades vid förra årets Neurips AI -konferens.
Den forskningen, som leds av Yoav Levine, tillsammans med Shashua, Noam Wies, Or Sharir och Hofit Bata, hävdar att det finns en viktig avvägning i neurala nätverk mellan det som kallas bredd och djup.
Neuralt nätverksdjup är antalet lager av artificiella neuroner genom vilka en given bit av ingångsdata behandlas i sekvens. Mittpunkten för “deep learning” -former av AI är många fler lager, därav större djup. OpenAIs GPT-3, i sin “kanoniska” form, med 175 miljarder parametrar, har ett djup på 96 lager.
Bredd, däremot , är dimensionen för vektorn som lagrar en representation av en ingång. För GPT-3 är det vanligtvis en vektor med dimensioner på 12 288.
I Levine och teamets forskning fann de att för många lager kan leda till minskande resultat för ett djupinlärningsprogram av typen “självuppmärksamhet”, vilket är vad GPT-3 är, och alla sådana program är alla byggda på originalet Transformatorprogram från Google.
Som de uttrycker det, “för en given nätverksstorlek”, vilket betyder antalet parametrar, “kan ett visst nätverk vara för grunt, som vi förutspådde teoretiskt och bekräftade empiriskt ovan, men det kan också vara för djupt. ” Därför drar Levine och team slutsatsen att det är en optimal djup-bredd-balans i konstruktionen av ett naturligt språkprogram.
Det är denna insikt som AI21: s Shoham och kollegor beskriver i sitt papper. “För en given parameterbudget finns det ett optimalt djup.” Specifikt ersätter de GPT-3: s 96 lager med bara 76 lager, och de ersätter vektorbredden på GPT-3 på 12 288 med en bredd på 13 824.
Också: AI på sextio sekunder
Enligt Levin -forskningen borde detta i slutändan ge Jurassic det som kallas större “uttrycksfullhet”, vilket bör vara kvaliteten på dess språkutmatning. Vad AI21-forskarna observerar är dock “en betydande ökning av körningsprestanda” när de kör sitt program på en GPU mot GPT-3:
Genom att flytta beräkningsresurser från djup till bredd kan fler operationer utföras parallellt (bredd) snarare än sekventiellt (djup). Detta är särskilt relevant för textgenerering där tokens bearbetas en i taget, så det finns mindre möjligheter till parallellisering, vilket resulterar i suboptimalt GPU-utnyttjande. I våra riktmärken, som jämför vår arkitektur mot GPT-3 175B på samma hårdvarukonfiguration, har vår arkitektur blygsamma fördelar i träningstid (1,5% snabbare per iteration), men betydande körtidsvinster i batchinferens (7%) och textgenerering (26 %).
En sak till som Shoham och team gjorde med Jurassic var att öka ordförrådets storlek, antalet unika tokens som programmet kan ta in och hålla reda på, från de 50 000 som GPT-3 använder till 256 000. De gick också utöver att använda tokens som bara ord till att använda “ordförrådsposter”, som de kallar dem, där enheterna “innehåller en rik blandning av ordstycken, hela ord och flerordsuttryck.”
Återigen med hänvisning till Levines och teamets arbete, hävdar AI21 -forskarna att en sådan flexibel användning av tokens är “närmare anpassad till textens semantiska enheter, inklusive både namngivna enheter och vanliga fraser”, och erbjuder därmed “flera fördelar, t.ex. mer proveffektiv utbildning. “
De flera fördelarna inkluderar vad som verkar vara en stor ökning av testtagning i förhållande till GPT-3. De tillhandahåller data som hävdar att Jurassics 178 miljarder parametrar är exakt jämförbara med GPT-3 i så kallade “zero-shot” -uppgifter, där inget exempel på mänskligt skrivande ges vid testtiden till programmet.
Shoham och teamets huvudfokus är dock där GPT-3 särskilt utmärker sig, vilket är tester som kallas “få-skottinlärning”, där flera exempel först skrivs av en person och språkprogrammet producerar utdata genom att i princip fortsätta mönstret i dessa exempel.
Tänk på det gamla spelet av analogier, “Microsoft är till stationära datorer som Apple är till telefoner, och Burger King är till hamburgare som Kentucky Fried Chicken är till ______”, och språkprogrammet måste ta reda på vilken typ av svar som frågas för i tomt baserat på mönstret av relationer. Det är få skott, och det kan göras för många typer av uppgifter, inklusive ja-nej-frågor och flervalsfrågor.
Här hävdar författarna fördelarna med den mer flexibla användningen av tokens. “En av dess fördelar är att i få-shot inlärningsinställningar kan fler träningsexempel passa in i prompten.” Som ett resultat, med samma totala antal träningsexempel som givna GPT-3, hävdar de större noggrannhet, särskilt för att fler exempel kan passa in i prompten.
Trots att de påstår vad de anser är överlägsna resultat, Shoham och team noterar på förhand att “utvärdering av få-skottinlärning är notoriskt knepigt, eftersom det är föremål för svagheter i ett snabbt val.”
Därför utvecklade Shoham och team en testsvit för att hantera sådana utmaningar på det sätt som mycket stora modeller jämförs med varandra. De har lagt upp den koden på GitHub.
Även om testresultaten förmodligen kommer att granskas på många olika sätt när människor sparkar i däcken, verkar det större målet med AI21 vara att ha byggt en mer tillgänglig GPT-3 på andra sidan av OpenAI-väggen , att som företag utnyttja önskan att många användare ska få tillgång till förmågan.
måste läsa
AI: AI: Fördelar och risker med artificiell intelligens
Den ökande omfattningen av AI ökar insatserna för stora etiska frågor.
Läs mer
Relaterade ämnen:
Utvecklare Digital Transformation CXO Internet of Things Innovation Enterprise Software
Av Tiernan Ray | 11 augusti 2021 – 15:21 GMT (16:21 BST) | Ämne: Artificiell intelligens