OpenAIs stemmemotor kan klone en stemme fra et 15-sekunders klipp. Lytt selv

0
14
fargerik 0 akinbostanci/Getty Images

Siden utgivelsen av ChatGPT og innledet den generative AI -æraen, har OpenAI ligget i forkant med banebrytende AI-teknologi som Sora, dens imponerende tekst-til-video-generator. På fredag ​​tok selskapet enda et skritt fremover ved å dele innsikt fra sin småskala forhåndsvisning av Voice Engine, en stemmeklonings-AI-modell som kan lage realistiske, emosjonelle stemmer ved hjelp av tekstinndata og et 15-sekunders lydeksempel . 

Som vist i klippet nedenfor, kan teknologien generere en svært realistisk klingende stemme som ligner stemmen i referanseklippet. En AI-stemmegenerator som er i stand til å etterligne noens stemme fra bare en 15-sekunders prøve – hva kan gå galt?

OpenAI er klar over risikoen ved en stemmekloningsmodell og har som et resultat ennå ikke sluppet den til offentligheten, til tross for den første utviklingen av Voice Engine i slutten av 2022. “Vi erkjenner at det å generere tale som ligner folks stemmer har alvorlige konsekvenser. risikoer, som er spesielt viktig i et valgår," sa selskapet i sitt blogginnlegg.

I 2023 begynte OpenAI å teste Voice Engine privat med en liten gruppe partnere for å hjelpe selskapet med å lære mer om modellen, inkludert potensielle brukstilfeller, sikkerhetstiltak og mer.

Også:&# xA0;Microsoft har en smart måte å vise deg at AI er normal (spesielt hvis du er alene)

Partnerne som testet Voice Engine måtte godta OpenAIs brukspolicy, som eksplisitt forbyr dem fra å utgi seg for en person eller organisasjon uten den opprinnelige foredragsholderens samtykke. Andre sikkerhetstiltak inkluderer å avsløre for publikum at stemmen de hører er AI-generert, vannmerker som sporer tilbake til Voice Engine, overvåking av modellens bruk og forbud mot å lage deres egne stemmer.

OpenAI&apos ;s partnere har tatt Voice Engine og utviklet brukstilfeller med potensielt positiv innvirkning.

For eksempel brukte edtech-oppstarten Age of Learning Voice Engine for å gi ikke-lesere og barn lesehjelp ved å generere forhåndsskrevet voice-over-innhold og personlige svar. På samme måte bygde AI-avatar-genererende oppstart HeyGen et verktøy på Voice Engine som oversetter en høyttalers stemme til flere språk.

Mens OpenAI holder Voice Engine i forhåndsvisning for nå, er andre lignende modeller allerede tilgjengelige for offentligheten. Ta ElevenLabs, en oppstart som har skapt overskrifter for både positive og negative brukstilfeller av sin AI-drevne stemmegenererende plattform. Det mest kjente eksemplet på ElevenLabs' teknologi  er sannsynligvis det nylige falske robocall fra president Joe Biden som oppmuntret velgerne til ikke å møte opp ved valglokalene.

Også: ChatGPT avslører endelig sine kilder – men det er en catch

ElevenLabs Voice Cloning-verktøyet er enkelt å få tilgang til og bruke. Alt du trenger er en ElevenLabs-konto, noen få minutter med stemmeprøver og en tekstmelding.

OpenAI er smart å forsinke inngangen til stemmekloningsområdet. Teknologiindustrien må bevisstgjøre risikoen ved AI-genererte stemmer og understreke for brukerne viktigheten av å verifisere kilder før de tror det de hører og ser.