Une société de synthèse vocale basée à Dubaï a publié un interview podcast fictive entre Joe Rogan et Steve Jobs en utilisant des voix réalistes clonées numériquement des deux hommes. Il se déroule lors du “premier épisode” d’une prétendue série de podcasts appelée “Podcast.ai”, créée par Play.ht, qui vend des services de synthèse vocale.
Dans l’interview, vous entendez d’abord une réplique de la voix de Rogan créée par une technologie de clonage de voix similaire à celle que nous avons couvert avant sur Ars. La technologie d’apprentissage en profondeur a permis aux modèles d’IA de reproduire des voix distinctives avec un degré élevé de précision, comme dans le cas de Dark Vador dans Disney’s Obi Wan Kenobi Séries TV.
Pour obtenir cet effet, quelqu’un doit d’abord entraîner le modèle d’IA sur des échantillons existants de la voix qui sera clonée. Rogan est une cible de choix pour la formation vocale de l’IA par des modèles d’apprentissage en profondeur, car de grandes quantités de sa voix isolée existent sur ses podcasts. En fait, The Verge couvert un coup de pub par une société d’IA appelée Dessa synthétisant Rogan en 2019.
Là où cet exemple de tromperie de l’IA devient plus intéressant, c’est que Play.ht a également fait entendre la voix du PDG décédé d’Apple, Steve Jobs. Sa voix, parfois saccadée de manière robotique, rappelle ses keynotes Apple et ses interviews All Things Digital de la fin des années 2000. Et Play.ht affirme que le texte de l’interview a également été généré par l’IA, peut-être à partir d’un grand modèle de langage (LLM) similaire à GPT-3.
“Les transcriptions sont générées avec des modèles linguistiques affinés,” écrit Play.ht sur le site Podcast.ai. “Par exemple, l’épisode de Steve Jobs a été formé sur sa biographie et tous les enregistrements de lui que nous avons pu trouver en ligne afin que l’IA puisse le ramener à la vie avec précision.”
Conformément à ses racines LLM, l’interview de 19 minutes n’a pas beaucoup de sens. Au bout d’un moment, certaines parties de l’interview fictive commencent à ressembler à des mashups conceptuels de points de discussion courants sur Jobs, notamment l’esthétique, des produits révolutionnaires, des concurrents tels que Google, Microsoft et Adobe, et les triomphes du Macintosh d’origine.
Par exemple, au cours d’une partie de l’interview, les faux Jobs se penchent sur des critiques de Microsoft qui sont très similaires à ce que les vrais Jobs ont dit dans une célèbre interview de 1995 pour Triomphe des nerds, mais ce n’est pas une copie conforme et vous pouvez dire que la voix est synthétisée si vous comparez les deux. “C’est le problème que j’ai toujours eu avec Microsoft”, déclare Fake Jobs. “À bien des égards, ce sont des gens intelligents et ils ont fait du bon travail, mais ils n’ont jamais eu de goût. Ils n’ont jamais eu de sens esthétique.”
Reste à savoir s’il est légal d’utiliser les ressemblances vocales de Jobs ou de Rogan de cette manière, en particulier pour promouvoir un produit commercial. Et malgré la nature publicitaire du podcast, le concept de podcasts de célébrités entièrement fictifs a retenu notre attention. Alors que la synthèse vocale devient plus répandu et potentiellement indétectables, nous envisageons un avenir où les artefacts médiatiques de toutes les époques seront probablement complètement fluides et malléables, façonnables pour s’adapter à n’importe quel récit. Dans ce monde fictif particulier, Jobs est un grand fan de Rogan.
“C’est agréable de s’asseoir dans la voiture et de t’écouter fulminer”, dit-il.