
Stillbilde fra en video generert av Sora. OpenAIs oppfordring var: “Kameraet vender direkte mot fargerike bygninger i Burano Italia. En bedårende dal ser ut gjennom et vindu på en bygning i første etasje. Mange mennesker går og sykler langs kanalgatene foran bygningene.”
OpenAIOpen AI har allerede markedsledende AI-modeller innen bilde- og tekstgenerering med henholdsvis DALL-E 3 og ChatGPT. Nå kommer selskapet også for tekst-til-video-generering, med en helt ny modell.
Også: De beste AI-bildegeneratorene i 2024: Testet og gjennomgått
På torsdag avduket OpenAI Sora, dens tekst-til-video-modell som kan generere videoer på opptil ett minutt med imponerende kvalitet og detaljer, som vist i demovideoen nedenfor:
Vi introduserer Sora, vår tekst-til-video-modell.
Sora kan lage videoer på opptil 60 sekunder med svært detaljerte scener, komplekse kamerabevegelser og flere karakterer med levende følelser. https://t.co/7j2JN27M3W
Spørsmål: “Vakker, snødekt… pic.twitter.com/ruTEWn87vf— OpenAI (@OpenAI) 15. februar 2024
Sora kan takle komplekse scener, inkludert flere karakterer, spesifikke typer bevegelser og store detaljer på grunn av modellens dype forståelse av språk, spørsmål og hvordan emnene eksisterer i verden, ifølge OpenAI.
Ved å se forskjellige demovideoer kan du se at OpenAI har klart å takle to store problemer i det videogenererende rommet: kontinuitet og lang levetid:
Prompt: «En stilig kvinne går nedover en Tokyo-gate fylt med varm glødende neon og animert byskilt. hun har på seg en svart skinnjakke, en lang rød kjole og svarte støvler, og har en svart veske. hun bruker solbriller og rød leppestift. hun går selvsikkert og uformell.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) 15. februar 2024
AI-genererte videoer er ofte hakkete og forvrengte, noe som gjør det klart for publikum hvor hvert bilde slutter og begynner. For eksempel ga Runaway AI ut sin mest avanserte tekst-til-video-modell, Gen-2, i mars. Som vist nedenfor, er ikke klippene helt sammenlignet med OpenAIs modell i dag:
Generer videoer uten annet enn ord. Hvis du kan si det, kan du nå se det.
Introduksjon, tekst til video. Med Gen-2.
Lær mer på https://t.co/PsJh664G0Q pic.twitter.com/6qEgcZ9QV4— Runway (@runwayml) 20. mars 2023
OpenAIs modell, på den andre hånd, kan generere flytende video, noe som får hvert generert klipp til å se ut som det ble hentet fra en Hollywood-produsert film.
Også: Slik bruker du ChatGPT
< p>OpenAI sier Sora er en diffusjonsmodell som er i stand til å produsere høykvalitets output ved å bruke en transformatorarkitektur som ligner på GPT-modellene, samt tidligere forskning fra DALL-E og GPT-modeller. I tillegg til å generere video fra tekst, kan Sora generere video fra et stillbilde eller fylle ut manglende rammer fra videoer:
Prompt: “En filmtrailer som viser eventyrene til den 30 år gamle rommannen iført en rød ullstrikket motorsykkelhjelm, blå himmel, saltørken, filmstil, tatt på 35 mm film, levende farger.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) 15. februar 2024
Til tross for å vise alle fremskritt, adresserer OpenAI også modellens svakheter, og hevder at den noen ganger kan slite med å “simulere fysikken til en kompleks scene, og kanskje ikke forstår spesifikke tilfeller av årsak og virkning.” Modellen kan også forvirre de romlige detaljene til en forespørsel.
Modellen blir tilgjengelig for røde lagspillere først for å vurdere modellens risiko, og for et utvalgt antall kreative, som billedkunstnere, designere og filmskapere, for å samle tilbakemeldinger om hvordan de kan forbedre modellen for å møte deres behov.
Også: Jeg prøvde Microsoft Copilots nye AI-bildegenererende funksjon, og den løser et reelt problem< /strong>
Det virker som om vi går inn i en ny æra der selskaper vil skifte fokus til å forske på, utvikle og lansere kapable AI-tekst-til-video-generatorer. For bare to uker siden publiserte Google Research en forskningsartikkel om Lumiere, en tekst-til-video-spredningsmodell som også kan lage svært realistisk video.