Disse AI-avatarene kommer nå med menneskelignende uttrykk

0
12

En av Synthesias ekspressive avatarer.&#xA0 ;

Syntese

Kunstig intelligens (AI) videogeneratorer og avatarene de lager utvikler seg raskt, og det britiske AI-videoselskapet Synthesia håper å ta den nye teknologien til neste trinn. 

Onsdag kunngjorde selskapet sine ekspressive avatarer, som kan skildre en rekke naturtro menneskelige følelser. Den siste utgaven av det selskapet kaller sine “digitale skuespillere”, Expressive Avatars har forbedrede ansiktsuttrykk, mer nøyaktig leppesynkronisering og realistisk menneskelignende stemmer – en oppgradering fra robottonen til de fleste tekst-til-lyd AI .

Også: Zoom får sin første store overhaling på 10 år, drevet av generativ AI

&quot ;Denne teknologien tilfører digitale avatarer et nivå av raffinement og realisme som visker ut grensen mellom det virtuelle og det virkelige," sa selskapet i kunngjøringen. 

Synthesias tekst-til-video-plattform kommer med mer enn 160 lager AI-avatarer som brukere kan velge mellom, som selskapet opprettet basert på menneskelige aktører, med deres samtykke og kompensasjon. Team kan samarbeide om videoer fra ende til annen og lage videoer på mer enn 130 språk. 

Selskapet har som mål å erstatte hele videoproduksjonsprosessen med programvaren deres – men de kommer ikke for Hollywood, sa administrerende direktør Victor Riparbelli under en demonstrasjon av utgivelsen. I stedet fokuserer selskapet på bedrifts- og B2B-innhold, der det ser et krav om enkel å lage, engasjerende og menneskelignende video. 

Også: Hva er generativt AI og hvorfor er det så populært? Her er alt du trenger å vite

Synthesias ekspressive avatarer er drevet av Express-1 AI-modellen. Mens selskapet bruker åpen kildekode LLM-er for tekstelementene i produktet, ble Express-1 opplært utelukkende på innhold Synthesia produsert internt – ingenting syntetisk eller skrapet fra nettet. 

I demoen forklarte Riparbelli at selskapet hyret inn tusenvis av skuespillere til å spille inn videoer for Express-1-modellen i studioene deres i London og New York, delvis for å unngå import av skjevheter innebygd i eksisterende datasett.

“Med denne spesielle teknologien er det ikke en levedyktig strategi å gå for syntetisk innhold, fordi du i hovedsak ender opp med å kunne replikere syntetisk innhold, som er akkurat det vi prøver å ikke gjøre med dette,”" sa Riparbelli. "Du prøver å gjenskape hvordan mennesker faktisk snakker."

Riparbelli la til at dette relativt mindre datasettet var nok for Express-1-modellen fordi det er mye mer “smalt og spesifikt”; enn modeller som OpenAIs Sora eller Runway. 

Også: Googles VLOGGER AI-modell kan generere videoavatarer fra bilder

Demoen viser en avatar som viser tre oppfordringer: “Jeg er glad”, “Jeg er opprørt”, og “Jeg er frustrert”. Avataren snakker med en mer realistisk og naturlig rytme enn tidligere generasjoner av Synthesias teknologi. 

"Ekspressive avatarer etterligner ikke bare menneskelig tale; de forstår konteksten," heter det i kunngjøringen. “Enten samtalen er munter eller dyster, justerer avatarene våre ytelsen deretter, og viser et nivå av empati og forståelse som en gang var det eneste domenet til menneskelige skuespillere.”

Selv om de ikke kan skilles fra virkelige mennesker, kan den naturtro naturen til disse avatarene være alarmerende – spesielt med tanke på hvordan dypfalsk teknologi blir misbrukt. 

"Vi er klar over at ekspressive avatarer er en kraftig ny teknologi , utgitt i løpet av et viktig år for demokratiet, da milliarder av mennesker rundt om i verden utøver sin stemmerett," sier selskapet i kunngjøringen. 

“Vi har tatt ytterligere skritt for å forhindre misbruk av plattformen vår, inkludert å oppdatere retningslinjene våre for å begrense typen innhold folk kan lage, investere i tidlig oppdagelse av aktører i ond tro, øke teamene som jobber med AI-sikkerhet, og eksperimentere med innholdslegitimasjonsteknologier som C2PA."

Også: 80 % av folk tror deepfakes vil påvirke valg. Her er tre måter du kan forberede deg på

Selskapet hadde også beskyttelse på plass før onsdagens utgivelse. Brukere kan lage egendefinerte avatarer, men må ha personens eksplisitte samtykke og gå gjennom en “grundig KYC-lignende prosedyre”, ifølge Synthesias nettsted. I tillegg kan du velge bort prosessen når som helst (det samme kan aksjeaktørene), og Synthesia vil slette data og likhet. Selskapet tillater ikke brukere å lage avatarer av kjendiser eller politikere under noen omstendigheter. 

I tillegg forklarer Riparbelli i en video at Synthesias verktøy bare kan brukes til å lage nyhetsinnhold av godkjente nyhetsorganisasjoner på bedriftsplaner. Det er imidlertid uklart hvilke kriterier Synthesia bruker, og om selskapet faktasjekker innhold laget av plattformen. 

Synthesia er også en del av Content Authenticity Initiative, en koalisjon av selskaper og organisasjoner som jobber med verktøy for opprinnelse av innhold eller for å identifisere opprinnelsen til et stykke medie. 

Også: Hva er innholdslegitimasjon? Her er grunnen til at Adobes nye AI holder disse metadataene i sentrum

Synthesia mener at de ekspressive avatarene vil hjelpe bedrifter med å gå utover deres grunnleggende innholdsbehov for å lage videoer med et mer empatisk preg: de om sensitive emner som helsetjenester, eller kundestøttemateriale som etterligner vennligheten og tålmodigheten til en ekte person. 

"Dette er bare den første utgivelsen, det første produktet, kan du si, som vi har bygget på toppen av disse modellene," sa Riparbelli under demoen. “Jeg tror vi ser på et omfangsskifte i kapasiteter i løpet av de neste seks til ni månedene.”