Cette voix artificielle, développée par Google, est indifférenciable de celle d’un humain

Dans le film Her de Spike Jonze, la voix artificielle de Samantha est si convaincante que le personnage principal finit par tomber amoureux d’elle. Une perspective peut-être pas si folle : Google vient de soumettre à la communauté scientifique un article faisant état de ses avancées en matière de synthèse vocale. Grâce à son système Tacotron 2, il aurait réussi à générer un flux audio au résultat si naturel qu’il ne pourrait être distingué de celui produit par une voix humaine.

Pour preuve, voici deux phrases lues chacune par Tacotron 2 et par une employée de Google. Saurez-vous repérer la voix artificielle ?

Exemple numéro un avec : That girl did a video about Star Wars lipstick

Réponse : la voix 1 est humaine et la voix 2 artificielle

Exemple numéro 2 avec She earned a doctorate in sociology at Columbia University

La réponse, cette fois, était : la voix 1 est artificielle et la voix 2 humaine.

Vous n’avez pas trouvé ? C’est normal. D’ailleurs, lors des calculs de note d’option moyenne qui juge la qualité de la restitution sonore d’un codec audio, Tacotron 2 a obtenu un score excellent de 4,53, presque identique à celui de la version humaine qui a atteint 4,58.

Deux réseaux neuronaux à l’oeuvre

Tacotron 2 repose sur deux réseaux neuronaux. Le premier divise le texte en séquences, et transforme chacune d’elle en spectrogramme. C’est-à-dire un diagramme représentant visuellement l’intensité des fréquences audio. Le second, nommé WaveNet, génère automatiquement les fichiers audio. Sa particularité est d’avoir été développé à l’origine par DeepMind, la fameuse société d’intelligence artificielle appartenant à Alphabet. WaveNet fait déjà fonctionner les voix anglaise et japonaise de Google Assistant en s’appuyant sur une méthode d’apprentissage non supervisée : il ne repose pas sur une grosse base de données alimentée par des enregistrements de comédiens. C’est une version à l’architecture légèrement modifiée qui a ici été utilisée. WaveNet agit comme un vocodeur pour synthétiser les formes d’ondes temporelles des spectogrammes.

Tacotron 2 est si puissant qu’il peut gérer sans problème des mots difficiles à prononcer et est en mesure de faire varier subtilement le volume comme la vitesse d’élocution. Il modifie aussi l’intonation en fonction de la ponctuation, accentuant par exemple des termes écrits en majuscules.

Un petit regret tout de même, Tacotron 2 ne s’exprime pour le moment qu’avec une voix féminine et en anglais. Pour parler avec une autre voix féminine ou un voix masculine, il faudrait que l’intelligence artificielle soit entraînée à nouveau. Il lui reste donc encore un peu de chemin à faire avant de bénéficier à des applications comme Google Assistant.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Amélie Charnay