Snowflake sier at dens nye LLM overgår Meta's Llama 3 på halve treningen

0
14
Snowflake< /figur>

En verden av åpen kildekode-programvare fortsetter å la bedrifter skille seg fra generative AI-giganter som OpenAI og Google. Onsdag kunngjorde datavarehus-skyleverandøren Snowflake en åpen kildekode AI-modell som selskapet sier kan være mer effektiv enn Metas nylig introduserte Llama 3 for bedriftsoppgaver, for eksempel SQL-koding for databasehenting. 

Også: AI21 og Databricks viser at åpen kildekode kan slanke AI radikalt

Den store språkmodellen (LLM), kalt Arctic, er “på nivå med eller bedre enn både Llama 3 8B og Llama 2 70B på bedriftsmålinger, mens de bruker mindre enn halvparten av treningsberegningsbudsjettet”," Snowflake gjør krav på GitHub-depotet. 

Snowflake har gitt ut alle Arctics parametere og modellkode under Apache 2.0 åpen kildekode-lisens, sammen med "dataoppskriften" for opplæring foreslått av selskapet, og en samling av forskningsinnsikt. Et Hugging Face-lager er også tilgjengelig.

"Dette er et vannskille for Snowflake, med AI-forskerteamet vårt som innoverer i forkant av AI," Snowflake-sjef Sridhar Ramaswamy sa i forberedte bemerkninger. 

updated-virtual-media-roundtable-deck-snowflake-arctic -slide-11-leaderboard-tasks Snowflake

Snowflake understreker Arctics evne til å holde stand mot Llama 3 og DBRX, ikke bare på bedriftsoppgaver, men også på vanlige maskinlæringsstandarder som “MMLU” tekstforståelsesoppgave: 

På samme måte, til tross for bruk av 17 ganger mindre beregningsbudsjett, er Arctic på nivå med Llama3 70B i bedriftsberegninger som koding (HumanEval+ & MBPP+), SQL (Spider) og Instruction Following (IFEval). Den gjør det mens den forblir konkurransedyktig på generell ytelse, for eksempel, til tross for at den bruker 7 ganger mindre databehandling enn DBRX, forblir den konkurransedyktig på språkforståelse og resonnement (en samling av 11 beregninger) samtidig som den er bedre i matematikk (GSM8K).

Snowflake har ennå ikke publisert et formelt papir, men selskapet har tilbudt noen tekniske detaljer på GitHub. Tilnærmingen som ble tatt av Snowflakes AI-ledere — Yuxiong He, Samyam Rajbhandari og Yusuf Ozuysal — ligner på en tilnærming som nylig ble tatt av databaseleverandøren Databricks med DBRX LLM og AI-startup AI21 Labs med Jamba LLM.

Også: Hvordan Meta's Llama 3 vil bli integrert i AI-assistenten

Tilnærmingen kombinerer en tradisjonell transformator oppmerksomhetsbasert modell med det som kalles en “blanding av eksperter” (MoE), en LLM-tilnærming som slår av noen av nevrale vekter for å spare databehandling og minnebehov. MoE er blant verktøyene som Google brukte for sin nylige Gemini LLM.

Snowflake kaller varianten en “Dense – MoE Hybrid Transformer” og beskriver arbeidet som følger: 

Arctic kombinerer en 10B tett transformatormodell med en gjenværende 128×3,66B MoE MLP, noe som resulterer i totalt 480B og 17B aktive parametere valgt ved bruk av en topp-2-port. For mer detaljer om Arctics modellarkitektur, treningsprosess, data osv.

snowflake-2024-artic-architecture Snowflake

I stedet for en formell artikkel har Snowflake publisert to blogginnlegg for å diskutere tilnærmingen og opplæringsprosedyren som en del av en ekspanderende Arctic Cookbook-nettside. 

Det er også en demo av Arctic gir slutninger, mening, forutsigelser, i form av en chat-melding, på Hugging Face-lageret.

Også: Jeg testet Meta' s Code Llama med 3 AI-kodingsutfordringer som ChatGPT klarte – og det var ikke bra

Da ZDNET ba Arctic-forespørselen om å forklare forskjellen mellom de to versjonene av Arctic, "base" og "instruere," den ga en anstendig oppsummering på et blunk, og la merke til at “Arctic Instruct er en variant av Arctic Base-modellen som er spesielt designet for instruksjonsfølging og oppgaveorienterte samtaler.”

Arctic følger Snowflake's utgivelse tidligere denne måneden av en familie med “tekst-innbyggende modeller”," som utmerker seg ved å bestemme hvordan ord grupperes sammen for gjenfinning, som brukes til søk.