Gå over Gemini, åpen kildekode AI har sine egne videotriks

0
13
Google Gemini-nettstedet på bærbar datamaskin leser, velkommen til Gemini era Maria Diaz/ZDNET

Google blendet verden med sin demo denne måneden av sitt mest banebrytende generative kunstig intelligens (AI)-program, Gemini 1.5, en oppfølging av det første Gemini-programmet, som ble utgitt i desember i fjor. Blant andre bragder utmerker Gemini 1.5 seg på ting som “nål-i-høstakk”-utfordringen, der programmet må identifisere en videoramme som samsvarer med en tekstbeskrivelse. 

Googles program – som de fleste AI-programmer fra de største kommersielle enhetene – inneholder imidlertid lite tekniske detaljer om hvordan programvaren fungerer. Den 58-siders tekniske rapporten som Google ga ut om Gemini 1.5 inneholder bare generelle beskrivelser av programmet og tilnærmingen som brukes, uten å beskrive arkitekturen som Gemini 1.5 er sammensatt av. Og selvfølgelig er koden ikke tilgjengelig. 

Også: Møt Gemini 1.5, Googles nyeste AI-modell med store oppgraderinger fra forgjengeren

I den forstand fortsetter Gemini 1.5 en nyere trend fra Google og OpenAI og andre kommersielle virksomheter — tilsløre de tekniske detaljene til AI. 

Den typen hemmelighold gir en mulighet for åpen kildekode-programvare som kan matche noen av Geminis evner samtidig som den åpner for tilgang til koden. 

I arbeid publisert denne måneden av Hao Liu, Wilson Yan, Matei Zaharia og Pieter Abbeel fra University of California i Berkeley, og beskrevet på prosjektets GitHub-side, tilpasser forskerne Metas åpen kildekode Llama 2 store språkmodell for å skape en multi- modalt program som, som Gemini 1.5, kan behandle ikke bare tekst, men også video og bilder, men ikke lyd (i motsetning til Gemini 1.5). 

Også: GPT-4 blir betydelig dummere over tid, ifølge en studie

Ved bruk av mainstream-versjonen av Llama 2, et ikke spesielt stort nevralt nett med 7 milliarder parametere, kunne forfatterne å håndtere inndata på opptil én million “tokens”, som er teksten, bildet eller videoen som mates inn i programmet. Dette tallet representerer en dramatisk økning fra de 128 000 som håndteres av Gemini 1.0-versjonen og OpenAIs GPT-4 Turbo.

Opprettelsen deres, kjent som Large World Model (LWM), utfører oppgaver på samme måte som Gemini 1.5. Den kan løse et problem av typen nål-i-høystakk, for eksempel å svare på forespørselen “Hvilken farge på jakken hadde jenta på trampolinen på?”, når den mates med en en times YouTube-video:

lwm-video-needle-in-haystack-test

U.C. Berkeleys store verdensmodell kan svare på et “nål-i-høystakken”-spørsmål om et bestemt øyeblikk i video bedre enn Googles Gemini 1.0 eller OpenAIs GPT-4 Turbo.

UC Berkeley

Liu og teamet har ennå ikke vist hvordan resultatene deres er sammenlignet med Gemini 1.5. I stedet viser teamet sammenligninger med GPT-4 og Gemini 1.0. 

Som vist i illustrasjonen ovenfor, svarer LWM på nål-i-høystakk-spørsmålet riktig, mens de to andre mislykkes.

LWM kan holde samtaler om hva som skjer i et videoklipp, og gi lange diskusjoner om innholdet i bilder, som er en prosess forskerne kaller «bildechat». LWM kan også generere bilder og videoer når de leveres med tekstbeskrivelser i ledeteksten (se begge eksemplene nedenfor):

berkeley-2024-lwm-video-chat UC Berkeley
berkeley-2024-lwm-image-chat UC Berkeley

Påfallende nok ser det ut til at Liu og teamet var i stand til å oppnå resultater tilsvarende Gemini 1.0 med mindre datakraft. LWM ble trent på en skive av en TPU versjon 4 “POD”, bestående av 256 TPU-brikker, med to kjerner hver, i 58 timer. Når det gjelder Gemini 1.0, inneholder den tekniske rapporten, akkurat som den tekniske rapporten for 1.5, få tekniske detaljer om infrastrukturen for trening. Alt vi vet er at Google brukte en viss mengde TPU versjon 4 og versjon 5 POD-er i en viss tid. Det er godt mulig de brukte en mye større mengde databehandling enn Liu og teamet gjorde for å trene LWM.  

Så, hvordan er LWM — som kun er basert på et relativt lite åpen kildekodeprogram som kjører på mindre datakraft — i stand til å oppnå lignende resultater som Gemini 1.0? Vel, LWM er et produkt av en annen type tilnærming til problemet med hvordan man utvikler et nevralt nettverk. 

Begge modellene starter med å bruke en lignende type nevrale nett, en transformator. Google la til “innovasjoner i treningsalgoritmer, datasett og infrastruktur” til transformatoren.

Også: Hvordan Google og OpenAI fikk GPT-4 til å levere mer tidsriktige svar< /strong>

Når det gjelder LWM, trente Liu og teamet modellen i flere påfølgende runder, med stadig større “kontekstvinduer”, som er mengden dataprøver programmet jobber med ved hvert pass. Teamet startet med 32 768 tokens i kontekstvinduene, som du kan tenke på som flere datastykker. De jobbet så opp til én million tokens.

Denne tilnærmingen kalles “Ring Attention”, og ble utviklet i fjor av Liu og teamet. Innsikten i Ring Attention er at du kan trene et nevralt nettverk på dataprøver samtidig, i stedet for sekvensielt, for å parallellisere treningen, noe som betyr å få gjort mer på kortere tid, og bruke brikkene mer effektivt.

berkeley-2024-lwm-architecture

LWM-arkitekturen.

UC Berkeley

“Vi tar i bruk en opplæring tilnærming […] hvor modellen vår trenes på stadig lengre sekvenslengder, starter fra 32K tokens og slutter på 1M tokens i økende potenser på to,” skriver Liu og teamet.

“Intuitivt lar dette modellen spare beregning ved først å lære avhengigheter med kortere rekkevidde før vi går over til lengre sekvenser. Ved å gjøre dette er vi i stand til å trene i størrelsesorden flere tokens sammenlignet med direkte trening på maksimal målsekvenslengde.”

berkeley-2024-lwm-training-data-sequences

LWM er trent på sekvenser av data med økende lengde. 

UC Berkeley

Dataene som brukes til å trene LWM inkluderer noen av de mest fremtredende datasettene som har blitt satt ut i naturen, inkludert Books3, som er kjernen i kontroversen om brudd på opphavsrett. Forskerne brukte også Video Instruct-100K, et “videosamtaledatasett” som er vert på GitHub. 

Google avslørte ikke Gemini 1.0s treningsdata, men beskriver dem bare slik: “Gemini-modeller trenes på et datasett som er både multimodalt og flerspråklig. Vårt forhåndsopplæringsdatasett bruker data fra nettdokumenter, bøker og kode, og inkluderer bilde-, lyd- og videodata.”

Også: AI vil frigjøre det neste nivået av menneskelig potensial. Slik ser du

Mens Google allerede har gått videre med Gemini 1.5, som kan håndtere så mange som 10 millioner tokens i sine innspill, mener Liu og teamet at Ring Attention “teoretisk kan utvides til en uendelig kontekst , bare begrenset av antall tilgjengelige enheter.”

De fortsetter: “Vi tror at vår utgitte modell vil gi et grunnlag for fremtidig arbeid med å utvikle lengre kontekstmodeller, samt oppmuntre til mer utfordrende benchmarks som inneholder vanskelige langdistanseoppgaver som krever høyere nivåer av syntese, snarere enn ren faktainnhenting.”

Koden til LWM er lagt ut på forskerteamets GitHub-side.