Écoutez un doubleur IA essayer de flirter avec vous

0
224

La qualité des voix générées par l'IA s'est rapidement améliorée ces dernières années, mais certains aspects de la parole humaine échappent encore à l'imitation synthétique. Bien sûr, les acteurs de l'IA peuvent fournir des voix off d'entreprise fluides pour les présentations et les publicités, mais les performances plus complexes – une interprétation convaincante de Hamlet, par exemple – restent hors de portée.

Sonantic, une voix d'IA startup, dit avoir fait une percée mineure dans son développement de deepfakes audio, créant une voix synthétique qui peut exprimer des subtilités comme les taquineries et le flirt. La société affirme que la clé de son avancée est l'incorporation de sons non vocaux dans son audio ; former ses modèles d'IA pour recréer ces petites inspirations – de minuscules moqueries et des rires à moitié cachés – qui donnent à la parole réelle son cachet d'authenticité biologique.

“Les émotions plus grandes sont un peu plus faciles à capturer”

“Nous avons choisi l'amour comme thème général”, a déclaré le co-fondateur et CTO de Sonantic, John Flynn, à The Verge. « Mais notre objectif de recherche était de voir si nous pouvions modéliser des émotions subtiles. Les émotions plus grandes sont un peu plus faciles à capturer.

Dans la vidéo ci-dessous, vous pouvez entendre la tentative de l'entreprise d'une IA coquette – bien que vous pensiez ou non qu'elle capture les nuances du discours humain est une question subjective. Lors d'une première écoute, je pensais que la voix était presque impossible à distinguer de celle d'une personne réelle, mais des collègues de The Verge disent qu'ils l'ont instantanément synchronisée comme un robot, pointant les espaces étranges laissés entre certains mots et un léger pli synthétique dans la prononciation.

La PDG de Sonantic, Zeena Qureshi, décrit le logiciel de l'entreprise sous le nom de “Photoshop pour la voix”. Son interface permet aux utilisateurs de taper le discours qu'ils souhaitent synthétiser, de spécifier l'ambiance de la livraison, puis de sélectionner parmi une distribution de voix d'IA, dont la plupart sont copiées d'acteurs humains réels. Ce n'est en aucun cas une offre unique (des rivaux comme Descript vendent des packages similaires), mais Sonantic affirme que son niveau de personnalisation est plus approfondi que celui de ses rivaux.

Les choix émotionnels pour la livraison incluent la colère, la peur, la tristesse, le bonheur et la joie, et, avec la mise à jour de cette semaine, le flirt, la timidité, les taquineries et la vantardise. Un “mode directeur” permet encore plus de réglages : la hauteur d'une voix peut être ajustée, l'intensité de la livraison augmentée ou réduite, et ces petites vocalisations non vocales comme les rires et les respirations insérées.

Le logiciel de Sonantic vous permet d'ajuster la livraison de la parole générée par l'IA. Image : Sonantic

“Je pense que c'est la principale différence – notre capacité à diriger, contrôler, éditer et sculpter une performance”, déclare Flynn. “Nos clients sont principalement des studios de jeux triple A, des studios de divertissement, et nous nous diversifions dans d'autres industries. Nous avons récemment conclu un partenariat avec Mercedes [pour personnaliser son assistant numérique embarqué] plus tôt cette année. »

Comme c'est souvent le cas avec une telle technologie, cependant, la véritable référence pour la réussite de Sonantic est l'audio qui sort tout juste de ses modèles d'apprentissage automatique, plutôt que ce qui est utilisé dans des démos raffinées et prêtes pour les relations publiques. Flynn dit que le discours synthétisé pour sa vidéo séduisante nécessitait “très peu d'ajustements manuels”, mais la société a parcouru quelques rendus différents pour trouver la meilleure sortie.

Pour essayer d'obtenir un échantillon brut et représentatif de la technologie de Sonantic, je leur ai demandé de rendre la même ligne (qui vous est destinée, cher lecteur de Verge) en utilisant une poignée d'ambiances différentes. Vous pouvez les écouter vous-même pour comparer.

Tout d'abord, voici “flirty” :

Puis “taquiner” :

“Enchanté” :

“Gai” :

Et enfin, “décontracté” :

À mes oreilles, du moins, ces clips sont beaucoup plus rugueux que la démo. Cela suggère quelques choses. Tout d'abord, ce polissage manuel est nécessaire pour tirer le meilleur parti des voix de l'IA. C'est le cas de nombreux projets d'intelligence artificielle, comme les voitures autonomes, qui ont réussi à automatiser la conduite très basique, mais qui luttent toujours avec ce dernier et très important 5 % qui définit la compétence humaine. Cela signifie que la synthèse vocale IA entièrement automatisée et totalement convaincante est encore loin.

Deuxièmement, je pense que cela montre que le concept psychologique d'amorçage peut faire beaucoup pour tromper vos sens. La démo vidéo – avec ses images d'un véritable acteur humain étant d'une intimité troublante envers la caméra – peut inciter votre cerveau à entendre la voix qui l'accompagne comme réelle. Le meilleur média synthétique pourrait donc être celui qui combine des sorties réelles et fausses.

Outre la question de savoir à quel point la technologie est convaincante, la démo de Sonantic soulève d'autres questions – comme, quelle est l'éthique du déploiement d'une IA coquette ? Est-il juste de manipuler les auditeurs de cette manière ? Et pourquoi Sonantic a-t-il choisi de rendre sa silhouette flirteuse féminine ? (C'est un choix qui perpétue sans doute une forme subtile de sexisme dans l'industrie technologique dominée par les hommes, où les entreprises ont tendance à coder les assistants IA comme des secrétaires dociles, voire dragueurs.)

À la première question, la société a déclaré que son choix d'une voix féminine était simplement inspiré du film Her de Spike Jonze en 2013, où le protagoniste tombe amoureux d'une assistante IA nommée Samantha. Sur le second, Sonantic a déclaré qu'il reconnaît les dilemmes éthiques qui accompagnent le développement de nouvelles technologies et qu'il fait attention à la manière et à l'endroit où il utilise ses voix d'IA.

“C'est l'une des principales raisons pour lesquelles nous nous sommes cantonnés au divertissement”, déclare le PDG Qureshi. “CGI n'est pas utilisé pour n'importe quoi – il est utilisé pour les meilleurs produits de divertissement et simulations. Nous voyons cette [technologie] de la même manière. Elle ajoute que toutes les démos de l'entreprise incluent une divulgation selon laquelle la voix est effectivement synthétique (bien que cela ne signifie pas grand-chose si les clients veulent utiliser le logiciel de l'entreprise pour générer des voix à des fins plus trompeuses).

Comparer la synthèse vocale AI à d'autres produits de divertissement est logique. Après tout, être manipulé par le cinéma et la télévision est sans doute la raison pour laquelle nous fabriquons ces choses en premier lieu. Mais il y a aussi quelque chose à dire sur le fait que l'IA permettra de déployer une telle manipulation à grande échelle, avec moins d'attention à son impact dans des cas individuels. Partout dans le monde, par exemple, les gens nouent déjà des relations – tombant même amoureux – avec des chatbots IA. L'ajout de voix générées par l'IA à ces bots les rendra sûrement plus puissants, soulevant des questions sur la façon dont ces systèmes et d'autres devraient être conçus. Si les voix de l'IA peuvent flirter de manière convaincante, que pourraient-elles vous persuader de faire ?