Apple bygger en slanket AI-modell ved hjelp av Stanford, Google-innovasjoner

0
13
Apple-logo Jeenah Moon/Bloomberg via Getty Images

Verden ser på for å se hva Apple vil gjøre for å motvirke dominansen til Microsoft og Google i generativ AI. De fleste antar at teknologigigantens innovasjoner vil ta form av nevrale nett på iPhone og andre iOS-enheter. Små ledetråder dukker opp her og der.

Også: Hvordan Apples AI-fremskritt kunne gjøre eller ødelegge iPhone 16

Apple introduserte nettopp sin egen " innebygd" stor språkmodell (LLM) for å kjøre på mobile enheter, OpenELM, hovedsakelig ved å blande sammen gjennombruddene til flere forskningsinstitusjoner, inkludert Googles dyplæringsforskere og akademikere ved Stanford og andre steder. 

All koden for OpenELM-programmet er lagt ut på GitHub, sammen med forskjellig dokumentasjon for treningstilnærmingen. 

Apples arbeid, beskrevet i en artikkel av Sachin Mehta og team, " OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework, publisert på arXiv pre-print server, er fokusert på mobile enheter ettersom størrelsen på nevrale nettet de bruker har bare 1,3 milliarder nevrale vekter , eller parametere. 

Dette tallet er langt under de hundrevis av milliarder av parametere som brukes av modeller som OpenAIs GPT-4 eller Googles Gemini. Flere parametere øker direkte dataminnet som kreves, så et mindre nevralt nett kan sannsynligvis passe inn i en mobil enhet lettere. 

Mehta og teamets mashup ville være ganske umerkelig uten et viktig bidrag: effektivitet. Forskerne justerer lagene i det dype nevrale nettverket slik at AI-modellen er mer effektiv enn tidligere modeller når det gjelder hvor mye data som må beregnes når de trener det nevrale nettverket. 

Også: 2024 kan være året AI lærer i håndflaten din

Spesifikt kan de møte eller slå resultatene av en rekke nevrale nett for mobil databehandling “mens de krever 2” #xD7; færre pre-training tokens", der tokens er de individuelle tegnene, ordene eller setningsfragmentene i treningsdataene. 

Apple starter fra samme tilnærming som mange LLM-er: en transformator. Transformatoren er signaturnettet innen språkforståelse, introdusert av Google-forskere i 2017. Alle store språkmodeller siden, inkludert Googles BERT og OpenAIs GPT-modeller, har tatt i bruk transformatoren. 

Apple oppnår høy effektivitet ved å blande transformatoren med en teknikk introdusert i 2021 av forskere ved University of Washington, Facebook AI Research og Allen Institute for AI, kalt DeLighT. Dette arbeidet brøt bort fra den konvensjonelle tilnærmingen der alle nevrale vekter er de samme for hvert “lag” av nettverket, de påfølgende matematiske beregningene som dataene passerer gjennom. 

I stedet justerte forskerne selektivt hvert lag for å ha et annet antall parametere. Fordi noen lag har relativt få parametere, kalte de tilnærmingen deres for en “dyp og lett transformator”, derav navnet DeLighT.

Også: < strong>Snowflake sier at dets nye LLM overgår Meta's Llama 3 på halve treningen

Forskerne sier at: “DeLighT matcher eller forbedrer ytelsen til baseline transformatorer med 2 til 3 ganger færre parametere i gjennomsnitt.”

Apple, ved hjelp av DeLighT, skaper OpenELM, der hvert lag av det nevrale nettet har et distinkt antall nevrale parametere, en uensartet tilnærming til parametere. 

“Eksisterende LLM-er bruker samme konfigurasjon for hvert transformatorlag i modellen, noe som resulterer i en enhetlig fordeling av parametere på tvers av lag,” skriv Mehta og team. “I motsetning til disse modellene, har hvert transformatorlag i OpenELM en forskjellig konfigurasjon (f.eks. antall hoder og fremkoblingsnettverksdimensjon), noe som resulterer i variabelt antall parametere i hvert lag i modellen." 

Den ikke-uniforme tilnærmingen, skriver de, “lar OpenELM bedre utnytte det tilgjengelige parameterbudsjettet for å oppnå høyere nøyaktighet.”

Også: Jøss! Microsoft Copilot mislyktes hver eneste av kodetestene mine

Konkurransen Apple måler seg mot bruker tilsvarende små nevrale nett. Disse konkurrentene inkluderer MobiLlama fra Mohamed bin Zayed University of AI og samarbeidende institusjoner, og OLMo, introdusert i år av forskere ved Allen Institute for Artificial Intelligence og forskere fra University of Washington, Yale University, New York University og Carnegie Mellon University.

Eksperimentene fra Apple er ikke utført på en mobil enhet. I stedet bruker selskapet en Intel-basert arbeidsstasjon med en enkelt Nvidia GPU og Ubuntu Linux. 

På en rekke benchmark-tester oppnår OpenELM-programmet bedre score, til tross for at det er mindre og/eller bruker færre tokens. For eksempel, på seks av syv tester, slår OpenELM OLMo til tross for at han har færre parametere – 1,08 milliarder mot 1,18 milliarder – og bare 1,5 billioner treningssymboler mot 3 billioner for OLMo.

Også:  Hvordan unngå hodepine med AI-kompetanseutvikling

Selv om OpenELM kan være mer nøyaktig enn disse modellene mer effektivt, noterer forfatterne seg ytterligere forskningsområder der OpenELM i noen tilfeller er tregere til å produsere sine spådommer. 

Et åpent spørsmål for Apples iOS AI-arbeid har vært om teknologigiganten vil lisensiere teknologi fra Google eller en annen part som leder AI-utviklingen. Apples investering i åpen kildekode-programvare gir den spennende muligheten for at Apple prøver å forsterke et åpent økosystem som egne enheter kan dra nytte av.