
Siden utgivelsen av ChatGPT og innledet den generative AI -æraen, har OpenAI ligget i forkant med banebrytende AI-teknologi som Sora, dens imponerende tekst-til-video-generator. På fredag tok selskapet enda et skritt fremover ved å dele innsikt fra sin småskala forhåndsvisning av Voice Engine, en stemmeklonings-AI-modell som kan lage realistiske, emosjonelle stemmer ved hjelp av tekstinndata og et 15-sekunders lydeksempel .
Som vist i klippet nedenfor, kan teknologien generere en svært realistisk klingende stemme som ligner stemmen i referanseklippet. En AI-stemmegenerator som er i stand til å etterligne noens stemme fra bare en 15-sekunders prøve – hva kan gå galt?
OpenAI lanserte nettopp Voice Engine,
Den bruker tekstinndata og en enkelt 15 -andre lydeksempel for å generere tale med naturlig lyd som ligner den originale høyttaleren.
Referanse og generert lyd er veldig nærme og vanskelig å skille mellom.
Flere detaljer i 🧵 pic.twitter.com/tJRrCO2WZP— AshutoshShrivastava (@ai_for_success) 29. mars 2024
OpenAI er klar over risikoen ved en stemmekloningsmodell og har som et resultat ennå ikke sluppet den til offentligheten, til tross for den første utviklingen av Voice Engine i slutten av 2022. “Vi erkjenner at det å generere tale som ligner folks stemmer har alvorlige konsekvenser. risikoer, som er spesielt viktig i et valgår," sa selskapet i sitt blogginnlegg.
I 2023 begynte OpenAI å teste Voice Engine privat med en liten gruppe partnere for å hjelpe selskapet med å lære mer om modellen, inkludert potensielle brukstilfeller, sikkerhetstiltak og mer.
Også:&# xA0;Microsoft har en smart måte å vise deg at AI er normal (spesielt hvis du er alene)
Partnerne som testet Voice Engine måtte godta OpenAIs brukspolicy, som eksplisitt forbyr dem fra å utgi seg for en person eller organisasjon uten den opprinnelige foredragsholderens samtykke. Andre sikkerhetstiltak inkluderer å avsløre for publikum at stemmen de hører er AI-generert, vannmerker som sporer tilbake til Voice Engine, overvåking av modellens bruk og forbud mot å lage deres egne stemmer.
OpenAI&apos ;s partnere har tatt Voice Engine og utviklet brukstilfeller med potensielt positiv innvirkning.
For eksempel brukte edtech-oppstarten Age of Learning Voice Engine for å gi ikke-lesere og barn lesehjelp ved å generere forhåndsskrevet voice-over-innhold og personlige svar. På samme måte bygde AI-avatar-genererende oppstart HeyGen et verktøy på Voice Engine som oversetter en høyttalers stemme til flere språk.
Mens OpenAI holder Voice Engine i forhåndsvisning for nå, er andre lignende modeller allerede tilgjengelige for offentligheten. Ta ElevenLabs, en oppstart som har skapt overskrifter for både positive og negative brukstilfeller av sin AI-drevne stemmegenererende plattform. Det mest kjente eksemplet på ElevenLabs' teknologi er sannsynligvis det nylige falske robocall fra president Joe Biden som oppmuntret velgerne til ikke å møte opp ved valglokalene.
Også: ChatGPT avslører endelig sine kilder – men det er en catch
ElevenLabs Voice Cloning-verktøyet er enkelt å få tilgang til og bruke. Alt du trenger er en ElevenLabs-konto, noen få minutter med stemmeprøver og en tekstmelding.
OpenAI er smart å forsinke inngangen til stemmekloningsområdet. Teknologiindustrien må bevisstgjøre risikoen ved AI-genererte stemmer og understreke for brukerne viktigheten av å verifisere kilder før de tror det de hører og ser.