Le créateur de la voix de ChatGPT veut construire la technologie à partir de « Elle », sans la dystopie

Alexis Conneau pense beaucoup au film « Her ». Depuis plusieurs années, il est obsédé par l'idée de transformer la technologie vocale fictive du film, Samantha, en réalité.

Conneau utilise même une photo du personnage de Joaquin Phoenix dans le film comme bannière sur Twitter.

Bannière X/twitter de Conneau (Crédit image : X)

Avec le mode vocal avancé de ChatGPT, un projet que Conneau a lancé chez OpenAI après avoir effectué un travail similaire chez Meta, il l'a en quelque sorte fait. Le système d’IA traite nativement la parole et répond un peu comme un humain.

Il a désormais une nouvelle startup, WaveForms AI, qui essaie de créer quelque chose de mieux.

Conneau passe beaucoup de temps à réfléchir à la manière d'éviter la dystopie montrée dans ce film, a-t-il déclaré à TechCrunch dans une interview. « Her » était un film de science-fiction sur un monde dans lequel les gens développent des relations intimes avec les systèmes d'IA, plutôt qu'avec d'autres humains.

« Le film est une dystopie, n'est-ce pas ? Ce n'est pas un avenir que nous voulons », a déclaré Conneau. « Nous voulons apporter cette technologie – qui existe maintenant et existera – et nous voulons l’apporter pour de bon. Nous voulons faire exactement le contraire de ce que fait la société dans ce film.

Construire la technologie, sans la dystopie qui l’accompagne, semble être une contradiction. Mais Conneau a quand même l'intention de le construire, et il est convaincu que sa nouvelle startup d'IA aidera les gens à « ressentir l'AGI » avec leurs oreilles.

Lundi, Conneau a lancé WaveForms AI, une nouvelle société audio LLM formant ses propres modèles de base. Son objectif est de lancer des produits audio IA en 2025 qui concurrenceront les offres d'OpenAI et de Google. La startup a levé 40 millions de dollars en financement de démarrage, a-t-elle annoncé lundi, dirigée par Andreessen Horowitz.

Conneau affirme que Marc Andreessen – qui a déjà écrit que l’IA devrait faire partie de tous les aspects de la vie humaine – s’est personnellement intéressé à son projet.

Il convient de noter que l’obsession de Conneau pour le film « Her » a peut-être causé des problèmes à OpenAI à un moment donné. Scarlett Johansson a envoyé une menace juridique à la startup de Sam Altman plus tôt cette année, forçant finalement OpenAI à supprimer l'une des voix de ChatGPT qui ressemblait fortement à son personnage dans le film. OpenAI a nié avoir jamais tenté de reproduire sa voix.

Mais il est indéniable à quel point le film a influencé Conneau. « Her » était clairement de la science-fiction lors de sa sortie en 2013 – à l'époque, Siri d'Apple était assez nouveau et très limité. Mais aujourd’hui, la technologie semble effrayante à portée de main.

Les plateformes de compagnonnage d’IA comme Character.AI touchent chaque semaine des millions d’utilisateurs qui souhaitent simplement parler avec leurs chatbots. Le secteur apparaît comme un cas d’utilisation populaire pour l’IA générative – malgré des résultats parfois tragiques et troublants. Vous pouvez imaginer à quel point quelqu'un qui tape avec un chatbot toute la journée aimerait avoir la chance de parler avec lui aussi, en particulier en utilisant une technologie aussi convaincante que le mode vocal avancé de ChatGPT.

Le PDG de WaveForms AI se méfie de l'espace de compagnonnage de l'IA, et ce n'est pas le cœur de sa nouvelle entreprise. S'il pense que les gens utiliseront les produits WaveForms de nouvelles manières – par exemple en parlant à une IA pendant 20 minutes dans la voiture pour en savoir plus – Conneau affirme qu'il souhaite que l'entreprise soit plus « horizontale ».

« [WaveForms AI] peut être ce professeur qui inspire, vous savez, peut-être ce professeur que vous n'auriez pas dans votre vie, du moins, dans votre vie physique », a déclaré le PDG.

À l’avenir, il pense que parler de l’IA générative sera un moyen plus courant d’interagir avec toutes sortes de technologies. Cela peut inclure de parler à votre voiture et à votre ordinateur. WaveForms vise à fournir l’IA « émotionnellement intelligente » qui facilite tout.

« Je ne crois pas en un avenir où l'interaction entre l'humain et l'IA remplacerait l'interaction entre les humains », a déclaré Conneau. « Au contraire, ce sera complémentaire. »

Il affirme que l’IA peut apprendre des erreurs des médias sociaux. Par exemple, il pense que l’IA ne devrait pas optimiser le « temps passé sur la plateforme », une mesure de succès courante pour les applications sociales qui peuvent promouvoir des habitudes malsaines, comme le doomscrolling. Plus largement, il souhaite s'assurer que l'IA de WaveForms est alignée sur les meilleurs intérêts des humains, qualifiant cela de « travail le plus important que vous puissiez faire ».

Conneau dit que le nom d'OpenAI pour son projet, « Advanced Voice Mode », ne rend pas vraiment justice à la différence entre la technologie et le mode vocal habituel de ChatGPT.

L'ancien mode vocal consistait simplement à traduire votre voix en texte, à l'exécuter via GPT-4, puis à reconvertir ce texte en parole. C’était une solution quelque peu bricolée. Cependant, avec le mode vocal avancé, Conneau dit que GPT-4o décompose en fait l'audio de votre voix en jetons (apparemment, chaque seconde d'audio équivaut à environ trois jetons) et exécute ces jetons directement via un modèle de transformateur spécifique à l'audio. . C’est, a-t-il expliqué, ce qui permet au mode vocal avancé d’avoir une latence aussi faible.

Une affirmation qui revient souvent lorsqu’on parle des modèles audio d’IA est qu’ils sont censés « comprendre les émotions ». Tout comme les LLM basés sur du texte sont basés sur des modèles trouvés dans des tas de documents texte, les LLM audio font la même chose avec des clips audio de humains parlant. Les humains qualifient ces clips de « tristes » ou « excités » afin que les modèles d’IA reconnaissent des modèles de voix similaires lorsqu’ils vous entendent le dire, et répondent même avec leurs propres intonations émotionnelles. Il s'agit donc moins de « comprendre les émotions » que de reconnaître systématiquement les qualités audio que les humains associent à ces émotions.

Rendre l’IA plus conviviale, pas plus intelligente

Conneau parie qu'aujourd'hui, l'IA générative n'a pas besoin de devenir beaucoup plus intelligente que GPT-4o pour créer de meilleurs produits. Au lieu d’améliorer l’intelligence sous-jacente de ces modèles, comme OpenAI le fait avec o1, WaveForms essaie simplement de rendre l’IA plus accessible.

« Il y aura un marché de personnes [using generative AI] qui choisiront simplement l’interaction qui leur semble la plus agréable », a déclaré Conneau.

C'est pourquoi la startup est convaincue de pouvoir développer ses propres modèles de base, idéalement des modèles plus petits, moins coûteux et plus rapides à exécuter. Ce n’est pas un mauvais pari compte tenu des preuves récentes selon lesquelles les anciennes lois de mise à l’échelle de l’IA ralentissent.

Conneau dit que son ancien collègue d'OpenAI, Ilya Sutskever, lui parlait souvent d'essayer de « ressentir l'AGI » – essentiellement, en utilisant son intuition pour évaluer si nous avons atteint une IA superintelligente. Le PDG de WaveForms est convaincu que parvenir à l'AGI sera davantage un sentiment, au lieu d'atteindre une sorte de référence, et les LLM audio seront la clé de ce sentiment.

« Je pense que vous pourrez ressentir beaucoup plus l'AGI lorsque vous pourrez lui parler, lorsque vous pourrez entendre l'AGI, lorsque vous pourrez réellement parler au transformateur lui-même », a déclaré Conneau, répétant les commentaires qu'il avait faits à Sutskever à propos de dîner.

Mais à mesure que les startups améliorent la communication avec l’IA, elles ont clairement aussi la responsabilité de trouver comment s’assurer que les gens ne deviennent pas dépendants. Cependant, Martin Casado, associé général d'Andreessen Horowitz, qui a contribué à diriger l'investissement dans WaveForms, affirme que ce n'est pas nécessairement une mauvaise chose si les gens parlent plus souvent à l'IA.

« Je peux parler à une personne au hasard sur Internet, et cette personne peut m'intimider, cette personne peut profiter de moi… Je peux parler à un jeu vidéo qui pourrait être arbitrairement violent, ou je pourrais parler à une IA », a déclaré Casado dans une interview avec TechCrunch. «Je pense que c'est une étude de question importante. Je ne serai pas surpris s'il s'avère que [talking to AI] est en fait préférable.

Certaines entreprises peuvent considérer qu’une personne développant une relation amoureuse avec votre IA est un marqueur de réussite. Mais d’un point de vue sociétal, cela pourrait également être considéré comme un marqueur d’échec total, un peu comme le film « Her » a tenté de le décrire. C'est la corde raide que WaveForms doit désormais parcourir.

A lire également