De grimmige toespraak van Nixon over de maanramp is nu een waarschuwing voor de deepfake-toekomst

0
141

Andrada Fiscutean

Door Andrada Fiscutean | 21 oktober 2021 | Onderwerp: Innovatie

voice-cloing-ai-artificial-intelligence-robot -mannequin.jpg

De entertainmentindustrie moet het gebruik van deepfakes en het klonen van stemmen nog reguleren.

Afbeelding: photoworldwide/Getty Images

Op 29 september ging de Emmy voor interactieve documentaire naar 'In Event of Moon Disaster' , een film die kunstmatige intelligentie (AI) gebruikt om een ​​nepvideo te maken met de voormalige Amerikaanse president Richard Nixon. In de film is te zien hoe hij een toespraak houdt die was voorbereid voor het geval de Apollo 11-missie zou mislukken, waardoor de astronauten Neil Armstrong en Buzz Aldrin op de maan zouden sterven.

Het multimediaproject is gemaakt door het Center for Advanced Virtuality van het Massachusetts Institute of Technology, met een beetje hulp van een Oekraïense startup voor het klonen van spraak, Respeecher, die aan de stem van Nixon werkte.

Vervolgens voegden de ingenieurs van Respeecher zich met behulp van een diep neuraal net bij de twee en voegden Nixon's vocale hout toe aan de uitvoering van de acteur, waardoor een deepfake-audio-opname ontstond. Voor iedereen die luistert, klinkt de synthetische stem natuurlijk en is hij niet te onderscheiden van het origineel.

ZIE: Het rapport constateert een verrassende desinteresse in ethisch, verantwoord gebruik van AI onder bedrijfsleiders

Om dit kwaliteitsniveau te bereiken, had het team van Serdiuk enkele uren opname nodig van zowel Nixon als de acteur. Nu hebben ze hun technologie verbeterd en is het proces eenvoudiger.

“We vragen meestal ongeveer 60 minuten aan spraakopnames voor doel- en bronstemmen”, zegt hij. “In veel projecten hadden we minder gegevens of slechtere gegevens, dus we weten hoe we met alle gegevens moeten werken.”

In tegenstelling tot tekst-naar-spraak-conversies, die vaak kunstmatig klinken, helpt de technologie van Respeecher emoties te behouden. “Ons doel was om de kwaliteit op dat niveau te brengen waar het bevredigend zou zijn voor veeleisende geluidsprofessionals in Hollywood”, zegt Serdiuk.

Respeecher heeft momenteel ongeveer 20 experts in dienst en heeft spraakmakende klanten zoals Lucasfilm in hun boeken. De startup heeft de afgelopen jaren aan verschillende baanbrekende projecten gewerkt. Het heeft bijvoorbeeld de stem van Michael York nagemaakt, waardoor hij kan praten over zijn zeldzame ziekte, amyloïdose.

“Het was een heel gaaf project om de technologie te gebruiken voor iemand wiens stem weg is, die deze stem niet meer kan gebruiken”, zegt Serdiuk. Zijn team bracht nog een iconische stem terug, die van wijlen American football-coach Vince Lombardi, die tijdens de SuperBowl een bemoedigende boodschap afzond voor degenen die met de pandemie worstelden. Daarnaast synthetiseerde Respeecher ook de stem van de jonge Luke Skywalker voor de laatste aflevering van seizoen twee van Mandalorian.

Serdiuk is optimistisch en zegt dat zijn kleine studio in Kiev zal blijven bijdragen aan blockbusters. : “Het kost tijd om geloofwaardigheid en reputatie op te bouwen in Hollywood. Maar nu bevinden we ons in een positie waarin enkele coole projecten van mond tot mond naar ons komen omdat sommige mensen in Hollywood onze technologie gebruiken, en zij delen deze ervaring met hun vrienden en collega's.”

Spraak-naar-spraak-conversies kunnen nuttig zijn in een breed scala aan projecten, van videogames tot films, van audioboeken tot callcenterassistenten. Respeecher kan conversies van man naar vrouw en van vrouw naar man emuleren, en in de toekomst zou het zelfs kunnen werken voor spraaknasynchronisatie in vreemde talen.

Ethische vragen

Het klonen van stemmen roept een aantal ethische vragen op, en sommigen vinden de technologie verontrustend. De documentaire 'Roadrunner: A Film About Anthony Bourdain', die in de zomer in de bioscopen verscheen, kreeg kritiek nadat werd onthuld dat een deel van de stem van de overleden chef-kok was gemaakt met behulp van voice-cloning-technologie. Bourdain heeft die zinnen inderdaad geschreven, maar er was geen opname waarop hij ze las.

Het gebruik van AI werd niet gesignaleerd aan het publiek. Het werd pas onthuld toen Morgan Neville het noemde. Het is ook niet duidelijk of de crew toestemming heeft gekregen van Bourdains familie om zijn stem synthetisch te maken.

Serdiuk zegt dat hij en de andere twee mede-oprichters een reeks regels hebben opgesteld die zowel zij als hun klanten moeten volgen. Respeecher biedt geen openbare API en wanneer het een stem kloont, voegt het er een audiowatermerk aan toe om detectie door gespecialiseerde software mogelijk te maken. Ook als een klant iemands stem wil klonen, heeft hij schriftelijke toestemming van die persoon of zijn familie nodig.

“Naar mijn mening is er niets nieuws aan deze technologie dat onze samenleving nog nooit eerder heeft gezien,” zegt Serdiuk. “Het is niet anders dan Photoshop, toch?”

De entertainmentindustrie moet deepfakes nog reguleren, maar Serdiuk is van mening dat de reeks regels die zijn team heeft ontwikkeld verplicht zou moeten zijn, aangezien online verkeerde informatie vaker zou kunnen voorkomen. De recente Emmy waaraan zijn team heeft bijgedragen, zou een kleine stap kunnen zijn in de bewustwording van de gevaren van deepfakes.

“We besteden veel tijd aan het opleiden, vertellen over wat mogelijk is, laten zien wat mogelijk is,” zei hij. “En dit MIT-project met president Nixon is daar een goed voorbeeld van.”

Innovatie

2022 tech trends: generatieve AI, autonome systemen, hyperautomatisering en meer Intel's geautomatiseerde debugging tool ControlFlag is nu open source De beste robotstofzuigers van 2021: Roomba is niet je enige optie Wat is AI? Alles wat u moet weten

Verwante onderwerpen:

Kunstmatige intelligentie CXO Digitale transformatie Tech Industrie Smart Cities Cloud Andrada Fiscutean

Door Andrada Fiscutean | 21 oktober 2021 | Onderwerp: Innovatie