Alexa pourrait lire les informations aussi bien qu’un présentateur de JT

Votre ton n’est pas le même suivant que vous lisez une histoire à un enfant ou un mail à un collègue. Cette capacité d’adaptation de la voix humaine suivant le contexte, Amazon aimerait l’inculquer à la voix de synthèse de son assistant Alexa, apprend-on sur le blog développeur d’Amazon. Histoire de sortir de la prosodie monocorde habituelle de ce type d’enceintes connectées. De nouveaux styles de conversation devraient ainsi faire leur apparition via Alexa d’ici quelques semaines selon The Verge. Dont une voix spéciale pour lire les informations, histoire de ne plus avoir l’impression que l’assistant passe un bottin en revue. Amazon promet même qu’elle serait du niveau d’un présentateur de journal télévisé.

Un nouveau système de synthèse vocale

Jusqu’à maintenant, Alexa s’appuyait sur de la synthèse vocale « concaténative », qui consiste à décomposer des échantillons de parole en sons distincts (appelés phonèmes), puis à les assembler pour former de nouveaux mots et de nouvelles phrases. Cette approche produit des voix de qualité mais leur son est neutre. Les ensembles de données n’ont pas les caractéristiques prosodiques distinctives requises pour représenter des styles de parole particuliers. Et la variété d’expressions s’en trouve limitée (hauteur, pauses, rythme).

Amazon a récemment développé un nouveau système de synthèse vocale neuronal (neural text-to speech ou NTTS) qui utilise un réseau de neurones basé sur de l’apprentissage automatique et qui permettrait de générer plus rapidement des voix expressives. Le système est constitué de deux composantes : un réseau de neurones qui convertit une séquence de phonèmes en une séquence de spectrogrammes ; et un vocodeur, qui convertit les spectrogrammes en un signal audio continu.

La voix pour lire les news d’Alexa a été créée en enregistrant des extraits de chaînes d’information qui ont été décortiqués par des algorithmes pour identifier les tendances d’intonation des journalistes. Amazon affirme qu’il a fallu relativement peu d’heures d’extraits pour enseigner le tout à Alexa, ouvrant la possibilité à toute une gamme variée de styles.

Plusieurs échantillons de voix ont été testés auprès des utilisateurs. Et le public a accordé une note plus élevée au résultat produit par le système de synthèse vocal neuronal qu’à la synthèse concaténative, ce qui a réduit de 46% la différence de score entre la parole humaine et la parole synthétique. Encourageant donc.

En octobre dernier, Google avait lui aussi lancé une nouvelle forme de synthèse vocale pour Google Assistant, qui utilise des techniques d’apprentissage automatique, mais développées cette fois par le laboratoire d’intelligence artificielle DeepMind basé à Londres.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Amélie Charnay