AI21 og Databricks viser at åpen kildekode kan slanke AI radikalt

0
8
AI21 Labs, Databricks

Mens kreftene til generativ AI med åpen kildekode prøver å motvirke AI-gigantene med lukket kildekode som OpenAI og Anthropic, vil et av deres nøkkelvåpen være effektivitetsgevinsten ved å kjøre mindre modeller som tar mindre tid å trene, mindre energi, færre dataressurser , og som et resultat mindre penger.

På den måten brakte forrige uke to nye store språkmodeller med åpen kildekode som konkurrerer med det beste av lukket kildekode fra OpenAI og Anthropic. AI-oppstart AI21 Labs og databaseteknologileverandøren Databricks demonstrerte separat hvordan mindre nevrale nettverk kan matche mye større modeller, i det minste på benchmark-tester.

Også:  Gå over Gemini, åpen kildekode AI har sine egne videotriks

AI21s Jamba er en bemerkelsesverdig kombinasjon av to forskjellige tilnærminger til språkmodeller: en transformator, nøkkelteknologien som de fleste språkmodeller er basert på, inkludert OpenAIs GPT-4, og et andre nevralt nettverk kalt en “statlig rommodell”. ," eller SSM.

Forskere ved Carnegie Mellon University og Princeton University forbedret SSM for å lage en mer effektiv løsning kalt "Mamba." AI21-forskerne Opher Lieber og teamet kombinerte deretter Mamba med transformatoren for å produsere “Joint Attention and Mamba”," eller Jamba. Som beskrevet i AI21s blogginnlegg, “Jamba overgår eller matcher andre toppmoderne modeller i sin størrelsesklasse på et bredt spekter av benchmarks.”

ai21-labs-2024-jamba-architecture

Jamba kombinerer en form for tilbakevendende nevrale nettverk kalt en tilstandsrommodell med en typisk transformator, en ny hybrid som kombinerer fordelene til hver enkelt.

AI21 Labs

I en rekke tabeller viser Lieber og teamet hvordan Jamba presterer på resonnement og andre oppgaver. “Bemerkelsesverdig presterer Jamba sammenlignbart med de ledende offentlig tilgjengelige modellene av lignende eller større størrelse, inkludert Llama-2 70B og Mixtral.”

ai21-labs-2024-jamba-benchmark-results.png

Jamba møter eller slår topp åpen kildekode-modeller til tross for radikalt slanking av minnekravene til nevrale nett.

AI21 Labs

Jamba slanker minnebruken til en stor språkmodell. Med 12 milliarder “parametere”, eller, nevrale vekter, det er på en måte sammenlignbart med Metas åpen kildekode Llama 2 7-milliarder parametermodell. Men mens Llama 2 7B bruker 128 GB DRAM for å lagre “nøkler og verdier” som får transformatorens oppmerksomhetsfunksjon til å fungere, Jamba krever bare 4 GB.

Som teamet sa det, “Å bytte oppmerksomhetslag for Mamba-lag reduserer den totale størrelsen på KV-cachen” (nøkkelverdi-minnedatabasen). Resultatet av å slanke minnet er at “vi ender opp med en kraftig modell som får plass i en enkelt 80 GB GPU” (en av Nvidias eldre A100 GPUer).

Også: Nettkriminelle bruker Meta's Llama 2 AI, ifølge CrowdStrike

Til tross for den slankere størrelsen, treffer Jamba et nytt høydepunkt: evnen til å ta inn flest mulig tegn eller ord av enhver åpen kildekode-modell. "Vår modell støtter en kontekstlengde på 256K tokens – den lengste støttede kontekstlengden for offentlig tilgjengelige modeller i produksjonsgrad."

Jambas kode er tilgjengelig på Hugging Face under Apache åpen kildekode-lisens. 

Den andre slående innovasjonen denne uken er Databricks'apos; DBRX. Databricks' internt AI-team, MosaicML, som selskapet kjøpte opp i 2023, bygde DBRX fra det som kalles en “blanding av eksperter”, en stor språkmodelltilnærming som stenger av noen av nevrale vekter for å spare data- og minnebehov. "MoE," som det ofte er kjent, er blant verktøyene som Google brukte for sin nylige Gemini store språkmodell.

Som Databricks forklarer i blogginnlegget, lar “MoEs deg i hovedsak trene større modeller og server dem med raskere gjennomstrømning." Fordi DBRX kan slå av noen parametere, bruker den bare 36 milliarder av sine 132 milliarder nevrale vekter til å lage spådommer.

MoE lar DBRX gjøre mer med mindre. Blant dens bemerkelsesverdige prestasjoner, “DBRX slår GPT-3.5 på de fleste benchmarks”," MosaicML-teamet skrev, inkludert tester av språkforståelse og datamaskinkodingsevne, selv om GPT-3.5 har 175 milliarder parametere (fem ganger så mange).

databricks-2024-dbrx-outperforms-gpt-3-5

DBRX overgår OpenAIs GPT-3.5 til tross for at den er langt mindre når det gjelder antall parametere . 

Databricks

Også: Hvorfor generative AI-modeller med åpen kildekode fortsatt er et skritt bak GPT-4

Hva mer er, når den brukes gjennom ledeteksten som en chatbot, er “DBRX-genereringshastigheten betydelig raskere enn LLaMA2-70B”," selv om Llama 2 har dobbelt så mange parametere. 

Databricks har som mål å drive innføringen av åpen kildekode-modeller i bedrifter. "Åpen kildekode LLM-er vil fortsette å få fart," erklærte laget. “Spesielt tror vi de gir en spennende mulighet for organisasjoner til å tilpasse åpen kildekode LLM-er som kan bli deres IP, som de bruker for å være konkurransedyktige i sin bransje. Mot det designet vi DBRX for å være enkelt å tilpasse slik at bedrifter kan forbedre kvaliteten på AI-applikasjonene sine. Fra og med i dag på Databricks-plattformen kan bedrifter samhandle med DBRX, utnytte dens lange kontekstevner i RAG-systemer og bygge tilpassede DBRX-modeller på sine egne private data."

DBRXs kode tilbys på GitHub og Hugging Face gjennom Databricks' åpen kildekode-lisens.

Så betydningsfulle som begge prestasjonene er, er den ene overordnede mangelen ved disse modellene at de ikke er “multimodale”," — de omhandler bare tekst, ikke bilder og video slik GPT-4, Gemini og andre modeller kan.