Après Microsoft, Meta dévoile une IA capable d'imiter votre voix en quelques secondes

Meta continue de se faire une place de choix dans le monde de l’intelligence artificielle. Le géant de Menlo Park a mis en ligne une kyrielle de modèles d’IA au cours des derniers mois, à commencer par LLaMA, pour Large Language Model Meta AI. Mis à disposition des développeurs, ce modèle a permis de concevoir une foule de chatbots personnalisés, dont FreedomGPT, un robot conversationnel non censuré.

Comment l’IA de Meta peut imiter votre voix

Plus récemment, Meta a aussi dévoilé « JEPA », un modèle très différent qui se veut proche d’une intelligence humaine, et MusicGen, l’IA qui génère des musiques sur base d’une description. Sur sa lancée, l’entreprise de Mark Zuckerberg présente maintenant Voicebox. Cette IA générative est conçue pour créer des fichiers vocaux. En clair, l’IA peut « prononcer » un discours et le mettre à disposition dans un fichier audio.

S'abonner à 01net

Ce système « de synthèse vocale » a besoin « d’un échantillon audio d’une durée de deux secondes » pour fonctionner. En s’inspirant de cet exemple, l’IA va alors générer un discours à la manière de la personne entendue dans l’extrait. Comme l’explique la maison mère de Facebook dans son rapport, « Voicebox est formé pour prédire un segment de parole lorsqu’on lui donne le discours environnant et la transcription ».

Concrètement, vous pouvez simuler la voix d’un proche ou d’un chanteur uniquement avec un court fichier audio en guise d’exemple. L’IA utilise aussi le contexte du texte pour calibrer sa production. De même, un style vocal peut être appliqué sur un discours déjà existant. L’IA peut remplacer la voix initiale par celle d’une autre personne.

« Voicebox peut générer une parole plus représentative de la façon dont les gens parlent dans le monde réel », explique Meta.

À lire aussi : Les faux ChatGPT envahissent Internet – l’avertissement de Meta

Des possibilités infinies

Dans son communiqué, Meta précise que l’IA peut aussi faciliter l’édition d’un fichier audio. Par exemple, Voicebox est capable d’effacer des klaxons de voiture ou les aboiements d’un chien en arrière-plan. Si un son vient perturber l’harmonie d’un fichier, l’IA peut gommer la partie problématique, et la régénérer de A à Z. De même, un défaut de prononciation, ou un mot mal choisi, peut être aisément effacé en postproduction par l’IA.

Cerise sur le gâteau, le modèle Voicebox est multilingue. Il prend en charge six langues différentes, à savoir l’anglais, le français, l’espagnol, l’allemand, le polonais et le portugais. D’après Meta, l’IA générative pourrait même faciliter les échanges entre des individus qui ne parlent pas la même langue. En effet, le modèle peut prononcer un discours dans une autre langue que celle du fichier audio initial. Un message enregistré en anglais pourrait très bien donner lieu à un fichier audio en espagnol ou en français. D’après les concepteurs, Voicebox peut aussi donner une voix aux personnes muettes ou personnaliser le timbre d’un assistant virtuel ou d’un personnage non jouable dans un jeu. En fait, les applications de Voicebox semblent infinies…

Sans surprise, le modèle s’appuie sur une montagne de données pour réaliser les tâches qui lui sont confiées. Meta explique avoir surtout abreuvé le modèle avec des discours enregistrés et des livres audio, en accès libre, écrits dans différentes langues. Au total, plus de 50 000 heures d’audio ont été engloutis par le modèle lors de la phase d’entraînement.

Dans le détail, le modèle a été entraîné sur base de la technique dite du Flow Matching, inventée par les chercheurs de Meta. Elle permet à l’IA d’apprendre en s’appuyant sur une base dont les données n’ont pas été soigneusement étiquetées par les chercheurs, ce qui représente un gain de temps.

En dépit de ses nombreux atouts, Voicebox souffre encore de certaines limitations. Essentiellement entraîné avec des livres audio, le modèle n’est aussi performant dans la génération de simples conversations, bien souvent entrecoupées d’expressions spontanées et non verbales. De même, le style de la voix, le ton, l’émotion restent parfois difficiles à appréhender pour les algorithmes.

Un code source non accessible

Contrairement à ses habitudes, Meta ne donnera pas accès au code source de l’IA pour le moment. Bien qu’il soit « important d’être ouvert avec la communauté et de partager nos recherches », le géant de Menlo Park pointe du doigt un important « potentiel de mauvaise utilisation et de préjudice involontaire ». Sans grande surprise, Meta redoute que l’IA soit utilisée pour usurper l’identité d’un individu ou générer des chansons à la manière d’un artiste.

En parallèle, Meta développe donc un outil capable de déterminer si une voix a été générée par l’intelligence artificielle ou s’il s’agit d’un extrait authentique. Cette initiative rappelle un peu le détecteur mis au point par OpenAI pour identifier les contenus imaginés par ChatGPT.

Notez qu’il ne s’agit pas du premier modèle d’IA capable de produire un discours audio sur la base d’un échantillon vocal. C’est aussi le cas de VALL-E, un modèle mis au point par Microsoft. Avec un exemple de seulement trois secondes, l’outil peut imiter une voix à l’infini. En miroir de Voicebox, VALL-E se distingue des générateurs déjà existants, comme Speechify ou Prime Voice d’Elevenlab, par la quantité réduite de données nécessaires à la conception d’un fichier audio. Avec un échantillon très court, il est désormais possible d’imiter la voix d’une personne…

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Opera One - Navigateur web boosté à l’IA

Par : Opera

Télécharger gratuitement

Source : Meta