Metas 'beskjæring' av Llama 2-modellen viser veien til slankere AI

0
14

Som rader med et marsjerende band som ikke blir hørt, kan lagene i et nevralt nettverk dempes og ha liten effekt på nøyaktigheten til nettets spådommer. 

Tiernan Ray/ZDNET

En av de banebrytende innsiktene i arbeidet med kunstig intelligens det siste tiåret er at svært store AI-programmer inneholder mindre seksjoner i dem som kan gjøre arbeidet med det totale programmet med mindre minne og færre operasjoner, og dermed øke hastigheten på ytelsen og redusere energibruken.< /p>

Denne innsikten, oftest referert til som "loddhypotesen," for en berømt artikkel i 2019 av lærde Jonathan Frankle og Michael Carbin (den gang ved MIT, for tiden ved databaseselskapet DataBricks), blir nå tatt i stadig mer praktisk bruk ettersom selskaper finner måter å krympe ned AI for å passe på færre GPU-brikker og med mindre minne og båndbredde nødvendig.

Også: Flytt over Gemini, åpen kildekode AI har sine egne videotriks

I en artikkel introdusert forrige uke av et team av forskere – – fra Metas AI-lab, MIT, Cisco Systems og oppstarten Zyphra – fjerning av så mye som halvparten av Metas åpen kildekode Llama 2 store språkmodell kuttet mengden minne som trengs med tre fjerdedeler, med resultatet at programmet kan kjøres på en Nvidia- eller AMD-GPU av forbrukerkvalitet i stedet for et stort rack med servere.

“Vi kan fjerne en betydelig brøkdel av de dypeste lagene fra modeller med minimal forringelse i nedstrøms ytelse, skriver Andrey Gromov og kollegaer i avisen, med noe mystisk tittel “The Unreasonable Ineffectiveness of the Deeper Layers”; og lagt ut på arXiv pre-print server. 

For Llama 2, skriver forfatterne, “vi kan eliminere opptil omtrent halvparten av lagene før ytelsen kollapser.” p>

Referansen til “dype lag” refererer til de siste delene av et nevralt nettverk. Se for deg et nevralt nettverk som rekker av musikere i et marsjerende band. Retningen til marsjering er måten hele bedriften flyter gjennom dataene, om du vil. På forsiden av bandet kan det være mindre messinginstrumenter som trompeter; i midten av flokken, tromboner og tubaer; og på baksiden, den "deep" del, kan være perkusjonsinstrumenter som trommer i forskjellige størrelser og symboler. 

Det Gromov og teamet ser er at trommene og cymbalene, og kanskje til og med noen tubaer, ikke gir noe merkbart bidrag til lyden. De er der, men ineffektive; all produksjonen som betyr noe er i den mindre messingen og kanskje noen av tubaene. Det er som om du kunne fjerne en god del av musikerne — bare klare deg uten dem — og få et mer effektivt band.

Også: Generativ AI svikter i denne svært vanlige evnen til menneskelig tanke

I faktiske nevrale nettverk, inkludert generative AI-programmer som OpenAIs GPT-4, i stedet for rader med musikere, har du påfølgende lag med nevrale nettverks-“parametere”. eller "vekter" — matematiske verdier som suksessivt transformerer inndataene ved å multiplisere og summere dem, og deretter produsere utdataene, dvs. prediksjonen.

Den eksperimentelle tilnærmingen som brukes av Gromov og teamet er å "beskjære" lag i nettverket for å se hva fjerning av dem gjør. 

De starter med å bygge på innsikt fra andre forskere som har prøvd å ta fra hverandre OpenAIs GPT for å se hva som får det til å tikke. For eksempel brukte en studie fra 2022 av Kevin Meng og team ved MITs Computer Science and Artificial Intelligence Laboratory en rekke teknikker for å finne ut hvilke GPT-lag som ser ut til å inneholde informasjon av fakta. Ved å følge "informasjonsflyten" Meng og kolleger utledet at fakta vanligvis er i “midten”; lag av et dypt nevralt nettverk. 

Dessuten: De beste AI-chatbotene: ChatGPT er ikke den eneste som er verdt å prøve

Bygger på denne innsikten, antar Gromov og teamet at fjerning av de dype lagene — perkusjonen og noen tubaer — bør ha liten effekt på benchmark-tester av AI-ferdigheter som store språkmodeller bruker, for eksempel svar på spørsmål. De gjør det i to trinn. 

Først prøver de en sofistikert tilnærming, som innebærer å måle hvilke lag som er mest like, og droppe de som ser ut til å tilføre lite. Det er som om du ba en av to rader med trompetister om å gå. Med hvert beskjæringstrinn tester de kontinuerlig hvordan det modifiserte nettverket presterer på tester som svar på spørsmål og en grunnleggende test for å “forutsi neste token” som er vanlig for generativ AI. 

meta-2024-pruning-transformer-blocks

Blokker av en transformatorbasert språkmodell inneholder påfølgende lag. Meta-teamet testet om fjerning av lag fra det siste eller dypeste laget i nettverket ville påvirke ytelsen. 

Meta

Deretter prøver de en enda enklere tilnærming: suksessivt fjerning av lag fra baksiden av nevrale nettet. Det viser seg at i det andre tilfellet, det enklere tilfellet, er alt de trenger å gjøre litt omtrening av de gjenværende lagene, via det som kalles finjustering, for å opprettholde ytelsen på et relativt konstant nivå.' xA0;

meta-2024-pruning-accuracy

Lag av et nevralt nett kan fjernes opptil omtrent halvparten, som vist i de blå og svarte linjene, og nøyaktigheten, til venstre, forblir omtrent den samme som grunnlinjen, det normale, uberørte nevrale nettet. Etter omtrent førtifem prosent av lagene som er fjernet, synker nevrale nettet i nøyaktighet.

Meta

Gromov og teamet opplever at deres beskårne nevrale nett scorer like bra som originalversjonen. Det innebærer at “den essensielle kunnskapen som kreves for å oppnå en modells toppscore ikke fjernes ved betydelig lagfjerning – selv om brøkdelen kan være ganske stor(!) – inntil den kunnskapen til slutt går tapt ved en kritisk modellavhengig terskel."

Funnene til Gromov og teamet leverer gode nyheter og dårlige nyheter.

Også:&# xA0;2024 kan være året AI lærer i håndflaten din

På den ene siden betyr funnene deres at store språkmodeller dramatisk kan krympe ned i databehandlingen de trenger. "Spesielt spenner den utgitte versjonen av Llama-2-70B over 140 GB minne og bruker omtrent 3 × 1010 FLOP-er [floating-point-operasjoner per token]," skriv forfatterne. 

"Med 4-bits kvantisering [en reduksjon i tallenes presisjon for å spare plass], og en lagbeskjæringsbrøkdel på 50 %, får modellen plass til omtrent 17,5 GB minne og krever omtrent 1,5 × 1010 FLOPPER per token. Disse minne- og datakravene gjør det mulig å kjøre og til og med finjustere avanserte modeller med åpen vekt på GPU-er på forbrukernivå uten avlastning av CPU og med kun mindre ytelsesavveininger."

Også: Hvordan LangChain gjør GenAI til en genuint nyttig assistent

Det er en fin effektivitet boost, men her er den dårlige nyheten: Det faktum at så mye kan reduseres med en slik beskjæring innebærer at det kan være mye i et nevralt nettverk som blir underutnyttet. Gromov og teamet sitter igjen med det åpne spørsmålet om “gjeldende pre-treningsmetoder ikke utnytter parametrene i de dypere lagene av nettverket på riktig måte eller at de grunne lagene spiller en kritisk rolle i lagring av kunnskap." 

For å vite svaret på det spørsmålet, kreves det mer forskning med mer omfattende tester av benchmarkoppgaver, for å se om andre utfordringer feiler annerledes enn grunnleggende spørsmålssvar.