Googles VLOGGER AI-modell kan generere videoavatarer fra bilder – hva kan gå galt?

0
13
5185774

VLOGGER kan ta ett enkelt fotografi av noen og lage klipp i høy-fidelitet og varierende lengder, med nøyaktige ansiktsuttrykk og kroppsbevegelser, ned til et blink, som overgår tidligere typer “talende hode” programvare.

Google

Fellesskapet for kunstig intelligens (AI) har blitt så flinke til å produsere falske bevegelige bilder — ta en titt på OpenAIs Sora, introdusert forrige måned, med sine glatte imaginære gjennomganger — at man må spørre en intellektuelt og praktisk spørsmål: hva skal vi gjøre med alle disse videoene?

Også: OpenAI avduker tekst-til-video-modell og resultatene er forbløffende . Ta en titt selv

Denne uken svarte Google-forsker Enric Corona og hans kolleger: kontroller dem ved å bruke vårt VLOGGER-verktøy. VLOGGER kan generere en høyoppløselig video av folk som snakker basert på et enkelt fotografi. Enda viktigere er at VLOGGER kan animere videoen i henhold til et taleeksempel, noe som betyr at teknologien kan animere videoene som en kontrollert likhet med en person — en “avatar” av høy troskap.

Dette verktøyet kan muliggjøre alle slags kreasjoner. På det enkleste nivået foreslår Coronas team at VLOGGER kan ha stor innvirkning på brukerstøtteavatarer fordi mer realistisk utseende syntetiske snakkende mennesker kan “utvikle empati.” De antyder at teknologien kan «aktivere helt nye brukstilfeller, for eksempel forbedret nettkommunikasjon, utdanning eller personlige virtuelle assistenter».

VLOGGER kan også tenkes å føre til en ny grense i deepfakes, ekte tilsynelatende likheter som sier og gjør ting den faktiske personen faktisk aldri gjorde. Coronas team har til hensikt å ta hensyn til de samfunnsmessige implikasjonene av VLOGGER i tilleggsmateriale. Dette materialet er imidlertid ikke tilgjengelig på prosjektets GitHub-side. ZDNET tok kontakt med Corona for å spørre om støttemateriellet, men hadde ikke mottatt svar ved publiseringstidspunktet.

Også: Ettersom AI-agenter spredte seg, så ta risikoen, sier forskere

Som beskrevet i det formelle papiret, “VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis”, har Coronas team som mål å gå forbi unøyaktighetene i det nyeste innen avatarer. "Opprettelsen av realistiske videoer av mennesker er fortsatt kompleks og moden med gjenstander," Coronas team skrev.

Teamet bemerket at eksisterende videoavatarer ofte beskjærer kroppen og hendene, og viser bare ansiktet. VLOGGER kan vise hele torsoer sammen med håndbevegelser. Andre verktøy har vanligvis begrensede variasjoner på tvers av ansiktsuttrykk eller positurer, og tilbyr kun rudimentær leppesynkronisering. VLOGGER kan generere “høyoppløselig video av hode- og overkroppsbevegelser […] med betydelig forskjellige ansiktsuttrykk og gester” og er “den første tilnærmingen til å generere snakkende og bevegelige mennesker gitt taleinndata.”

Som forskerteamet forklarte, “er det nettopp automatisering og atferdsrealisme som [er] det vi sikter mot i dette verket: VLOGGER er et multimodalt grensesnitt til en legemliggjort samtaleagent, utstyrt med en lyd- og animert visuell representasjon, med komplekse ansiktsuttrykk og økende kroppsbevegelsesnivå, designet for å støtte naturlige samtaler med en menneskelig bruker."

google-2024-vlogger-example

Basert på et enkelt fotografi, til venstre, forutsier VLOGGER-programvaren rammene av video, høyre, som skal følge hvert øyeblikk av en lydfil av noen som snakker, ved å bruke en prosess kjent som “diffusjon”, og genererer deretter disse videorammene i høydefinisjonskvalitet. 

Google

VLOGGER samler noen nyere trender innen dyp læring.

Multimodalitet forener de mange modusene AI-verktøy kan absorbere og syntetisere, inkludert tekst og lyd, og bilder og video. 

Store språkmodeller som OpenAIs GPT-4 gjør det mulig å bruke naturlig språk som input for å drive handlinger av ulike slag, det være seg å lage avsnitt med tekst, en sang eller et bilde.

Forskere har også funnet en rekke måter å lage naturtro bilder og videoer på de siste årene ved å foredle "diffusjon." Begrepet kommer fra molekylfysikk og refererer til hvordan, når temperaturen stiger, går partikler av materie fra å være svært konsentrert i et område til å bli mer spredt. Analogt kan biter av digital informasjon sees på som “diffuse” jo mer usammenhengende blir de med digital støy.

Også: Flytt over Gemini, åpen kildekode AI har sine egne videotriks

AI-diffusjon introduserer støy i et bilde og rekonstruerer det originale bildet å trene et nevralt nettverk for å finne reglene som det ble konstruert etter. Diffusjon er roten til den imponerende bildegenereringsprosessen i Stability AI's Stable Diffusion og OpenAI's DALL-E. Det er også hvordan OpenAI lager glatte videoer i Sora.

For VLOGGER trente Coronas team opp et nevralt nettverk for å assosiere en høyttalers lyd med individuelle videobilder fra den høyttaleren. Teamet kombinerte en diffusjonsprosess for å rekonstruere videorammen fra lyden ved å bruke enda en ny innovasjon, Transformer. 

Transformeren bruker oppmerksomhetsmetoden til å forutsi videobilder basert på bilder som har skjedd tidligere, i forbindelse med lyden. Ved å forutsi handlinger lærer det nevrale nettverket å gjengi nøyaktige hånd- og kroppsbevegelser og ansiktsuttrykk, bilde for bilde, synkronisert med lyden.

Det siste trinnet er å bruke spådommene fra det første nevrale nettverket til deretter drive genereringen av høyoppløselige rammer av video ved hjelp av et andre nevralt nettverk som også bruker diffusjon. Det andre trinnet er også et høyvannsmerke i data. 

Også: Generativ AI svikter i denne svært vanlige evnen til mennesker tenkte

For å lage høyoppløselige bilder, kompilerte Coronas team MENTOR, et datasett med 800 000 “identiteter” av videoer av folk som snakker. MENTOR består av 2200 timer med video, som teamet hevder gjør det til “det største datasettet som er brukt til dags dato når det gjelder identiteter og lengde” og er 10 ganger større enn tidligere sammenlignbare datasett.

Forfatterne finner ut at de kan forbedre denne prosessen med et oppfølgingstrinn kalt “finjustering”. Ved å sende inn en video i full lengde til VLOGGER, etter at den allerede er “forhåndstrenet” på MENTOR kan de mer realistisk fange særegenhetene til en persons hodebevegelser, som å blinke: “Ved å finjustere diffusjonsmodellen vår med mer data, på en monokulær video av et emne, kan VLOGGER lære å fange identiteten bedre, f.eks. når referansebildet viser øynene som lukkede," en prosess teamet refererer til som "tilpasning."

google-2024-vlogger-arkitektur

VLOGGERs nevrale nett er en kombinasjon av to forskjellige nevrale nett. Den første bruker "masked attention" via en transformator for å forutsi hvilke positurer som skal skje i en videoramme basert på lyden som kommer fra høyttalerens innspilte lydsignal. Det andre nevrale nettet bruker diffusjon til å generere en konsistent sekvens av videorammer ved å bruke ledetrådene til kroppsbevegelser og uttrykk fra det første nevrale nettet.

Google

Det større poenget med denne tilnærmingen – å koble spådommer i ett nevralt nettverk med høyoppløselige bilder, og det som gjør VLOGGER provoserende – er at programmet ikke bare genererer en video, slik Sora gjør. VLOGGER kobler den videoen til handlinger og uttrykk som kan kontrolleres. Dens naturtro videoer kan manipuleres mens de utfolder seg, som dukker.

Også: Nvidia-sjef Jensen Huang avduker neste generasjons 'Blackwell' brikkefamilie hos GTC

"Målet vårt er å bygge bro mellom nyere videosyntesearbeid," Coronas team skrev, “som kan generere dynamiske videoer uten kontroll over identitet eller positur, og kontrollerbare bildegenereringsmetoder.”

Ikke bare kan VLOGGER være en stemmedrevet avatar, men det kan også føre til redigeringsfunksjoner, for eksempel å endre munnen eller øynene til et talende motiv. For eksempel kan en virtuell person som blunker mye i en video endres til å blinke litt eller ikke i det hele tatt. En talemåte med bred munn kan innsnevres til en mer diskret bevegelse av leppene.

google-2024-vlogger-edited-videos.png

Etter å ha oppnådd en måte å kontrollere høyoppløselig video via stemmesignaler, åpner VLOGGER veien for manipulasjoner, for eksempel å endre leppebevegelsene til høyttaleren ved hver strekk av videoen til å være forskjellig fra den originale kildevideoen.

VLOGGER

Etter å ha oppnådd en ny toppmoderne når det gjelder å simulere mennesker, er spørsmålet som ikke ble tatt opp av Coronas team, hva verden bør forvente av eventuell misbruk av teknologien. Det er lett å forestille seg likheter med en politisk skikkelse som sier noe helt katastrofalt om for eksempel en forestående atomkrig.

Antagelig vil neste trinn i dette avatarspillet være nevrale nettverk som, som 'Voight -Kampff test' i filmen Blade Runner, kan hjelpe samfunnet med å oppdage hvilke høyttalere som er ekte og hvilke som bare er deepfakes med bemerkelsesverdig naturtro manerer.