Passer au contenu

Et si demain Google Home pouvait imiter parfaitement la voix humaine ?

Des chercheurs de Google ont réussi à moduler des voix synthétiques de façon aussi expressive que des voix humaines. Ce qui va permettre d’améliorer et même de personnaliser les assistants vocaux.

Faites l’expérience de confier à Google Assistant que vous avez perdu votre chien. Il vous répondra une phrase du type “C’est une triste nouvelle, ça doit être difficile pour vous”, prononcé d’un ton si monocorde et avec si peu d’affect que vous aurez l’impression qu’il se moque de vous.

C’est l’un des obstacles actuels de la recherche en synthèse vocale : il est difficile d’obtenir un ton expressif. Pour y parvenir, les chercheurs de Google ont décidé de prendre en compte la prosodie, c’est-à-dire la durée, la mélodie et le rythme des sons. Ce qu’aucun programme n’avait fait jusque-là. Modéliser la prosodie va enfin permettre d’obtenir des voix artificielles au rendu naturel et même, pourquoi pas, personnaliser votre assistant vocal en lui demandant de simuler à la perfection n’importe quelle voix, y compris la vôtre !

Faire varier la vitesse et le volume de la voix ne suffit pas

En fin d’année dernière, la même équipe de Google avait déjà réussi à générer une voix synthétique féminine en anglais au résultat si naturel qu’elle n’avait pas été distinguée d’une voix humaine lors de tests.
Le programme, baptisé Tacotron 2, reposait sur deux réseaux neuronaux. Un premier qui divise le texte en séquences, et transforme chacune d’elle en spectrogramme (un diagramme représentant visuellement l’intensité des fréquences audio), et un second nommé WaveNet (déjà à l’oeuvre dans Google Assistant), qui génère automatiquement les fichiers audio.
Si Tacotron 2 avait obtenu de si bons résultats, c’est parce qu’il faisait déjà varier le volume, la vitesse d’élocution et la ponctuation. Mais il était limité car il ne pouvait pas contrôler l’expression de la voix. “Cela peut conduire à un discours à consonance monotone, même lorsque les modèles sont formés sur des jeux de données très expressifs comme les livres audio, qui contiennent souvent des voix de personnages avec des variations significatives”, peut-on lire sur le blog officiel de Google Research.

Prendre exemple sur l’expressivité humaine

La grande nouveauté, c’est donc la modélisation de la prosodie qui fait l’objet de deux articles scientifiques. Le premier décrit comment l’architecture de Tacotron a été modifiée de manière à ajouter une sorte de codeur de prosodie qui se base sur l’enregistrement audio d’une parole humaine servant de référence. Des caractéristiques, comme le stress ou l’intonation, sont étiquetées. Ce qui permet de reproduire cette prosodie avec d’autres phrases que celles de l’enregistrement.

Le premier fichier correspond à l’enregistrement du modèle de référence.

Le second à une voix simulée reprenant la même prosodie appliquée à une autre phrase.

Cela fonctionne même avec des voix différentes du modèle de référence.

Voici le modèle humain.

Et une voix simulée différente.

Le hic, c’est qu’il n’est pas possible, de cette manière, de reproduire cette prosodie avec des phrases qui ne comportent pas la même structure et longueur que l’enregistrement de référence.
En gros, tout cela nécessiterait d’enregistrer une voix humaine pour chaque palette d’expression et chaque structure de phrase.  Sacrément contraignant !

Apprendre à simuler des intonations indépendamment d’un texte

Les chercheurs ont donc tenté de s’affranchir de ces limites, ce qu’ils expliquent dans un second article. Ils ont mis au point une autre méthode non supervisée capable de convoquer une expression triste, joyeuse ou agressive sans passer chaque fois par un modèle de référence. La machine apprend ainsi des variations d’expression indépendamment du texte prononcé et les transpose dans n’importe quelle situation. Une méthode qui a même fonctionné avec des vidéos YouTube comportant un fort bruit ambiant.

Voici un exemple d’une même phrase prononcée par une voix artificielle dans deux styles différents.

L’équipe de Google annonce cependant qu’elle doit encore beaucoup améliorer son programme avant de pouvoir en tirer des applications grand public. Mais le jour approche peut-être où une intelligence artificielle pourra susciter des sentiments grâce à une voix aussi nuancée que celle de l’Homme, comme dans le film Her.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Amélie Charnay