OpenAI avduker tekst-til-video-modell og resultatene er forbløffende. Ta en titt selv

0
55
OpenAI video generator still frame

Stillbilde fra en video generert av Sora. OpenAIs oppfordring var: “Kameraet vender direkte mot fargerike bygninger i Burano Italia. En bedårende dal ser ut gjennom et vindu på en bygning i første etasje. Mange mennesker går og sykler langs kanalgatene foran bygningene.”

OpenAI

Open AI har allerede markedsledende AI-modeller innen bilde- og tekstgenerering med henholdsvis DALL-E 3 og ChatGPT. Nå kommer selskapet også for tekst-til-video-generering, med en helt ny modell. 

Også: De beste AI-bildegeneratorene i 2024: Testet og gjennomgått

På torsdag avduket OpenAI Sora, dens tekst-til-video-modell som kan generere videoer på opptil ett minutt med imponerende kvalitet og detaljer, som vist i demovideoen nedenfor:

Sora kan takle komplekse scener, inkludert flere karakterer, spesifikke typer bevegelser og store detaljer på grunn av modellens dype forståelse av språk, spørsmål og hvordan emnene eksisterer i verden, ifølge OpenAI. 

Ved å se forskjellige demovideoer kan du se at OpenAI har klart å takle to store problemer i det videogenererende rommet: kontinuitet og lang levetid:

AI-genererte videoer er ofte hakkete og forvrengte, noe som gjør det klart for publikum hvor hvert bilde slutter og begynner. For eksempel ga Runaway AI ut sin mest avanserte tekst-til-video-modell, Gen-2, i mars. Som vist nedenfor, er ikke klippene helt sammenlignet med OpenAIs modell i dag:

OpenAIs modell, på den andre hånd, kan generere flytende video, noe som får hvert generert klipp til å se ut som det ble hentet fra en Hollywood-produsert film. 

Også: Slik bruker du ChatGPT

< p>OpenAI sier Sora er en diffusjonsmodell som er i stand til å produsere høykvalitets output ved å bruke en transformatorarkitektur som ligner på GPT-modellene, samt tidligere forskning fra DALL-E og GPT-modeller. I tillegg til å generere video fra tekst, kan Sora generere video fra et stillbilde eller fylle ut manglende rammer fra videoer:

Til tross for å vise alle fremskritt, adresserer OpenAI også modellens svakheter, og hevder at den noen ganger kan slite med å “simulere fysikken til en kompleks scene, og kanskje ikke forstår spesifikke tilfeller av årsak og virkning.” Modellen kan også forvirre de romlige detaljene til en forespørsel.

Modellen blir tilgjengelig for røde lagspillere først for å vurdere modellens risiko, og for et utvalgt antall kreative, som billedkunstnere, designere og filmskapere, for å samle tilbakemeldinger om hvordan de kan forbedre modellen for å møte deres behov. 

Også: Jeg prøvde Microsoft Copilots nye AI-bildegenererende funksjon, og den løser et reelt problem< /strong>

Det virker som om vi går inn i en ny æra der selskaper vil skifte fokus til å forske på, utvikle og lansere kapable AI-tekst-til-video-generatorer. For bare to uker siden publiserte Google Research en forskningsartikkel om Lumiere, en tekst-til-video-spredningsmodell som også kan lage svært realistisk video.