Le PC gagne des voix

Les scientifiques du laboratoire ” traitement de la parole ” du géant informatique américain Bell ont mis de l’interactivité sur leur site. A l’adresse www.bell-labs.com/project/tts/voices-java.html, l’internaute est invité à taper le texte de son choix et, quelques secondes plus tard, à l’écouter lire par une voix de synthèse dans l’une des cinq langues proposées.La voix est au choix celle d’un homme, d’un enfant, d’un buveur de café (sic), d’un obèse (re-sic). L’internaute joue également sur des critères plus scientifiques : débit, la phrase sera énoncée en 2 secondes au lieu de 12 ; hauteur, plus elle est haute plus la voix semble féminine ; longueur du conduit vocal ; puissance de respiration ; etc. L’exercice aide à mieux comprendre le fonctionnement de la voix humaine et de la synthèse vocale.Le système TTS (Text-to-Speech) développé par les scientifiques des laboratoires Bell évite pas mal des pièges classiques de la synthèse vocale. Il reconnaît les signes et les abréviations ?” par exemple ” $ ” est prononcé ” dollar ” ?” et il lit correctement une adresse Internet. Le système TTS change d’intonation avec les virgules et autres points d’interrogation ou d’exclamation. Il n’associe plus à chaque phonème (par exemple [i] ou [b]) un son mais il transcrit chaque phrase en diphones ou triphones, c’est-à-dire des unités qui contiennent phonème et transition entre deux ou trois autres phonèmes. Pour se rapprocher d’une voix plus humaine, d’autres règles sont appliquées : certains mots sont accentués, un rythme est attribué aux phrases, les débits de prononciation varient selon les syllabes, etc.Quel chemin parcouru depuis les messages préenregistrés des répondeurs téléphoniques des années 80 ! Pourtant, tous ces efforts ne suffisent pas encore. Impossible de confondre ces voix avec celle d’un être humain. En anglais, les voix semblent à peine métalliques. Le résultat est moins saisissant en français, même si le système tient compte des liaisons : des syllabes sont tronquées, les mots mal accentués… Dans toutes les langues il y a plus gênant : la voix féminine ne trompera personne, on dirait une imitation faite par un mâle sans talent. La chose s’explique sans doute par la misogynie rampante des labos du monde entier. Depuis 1980, la plupart s’acharnent à reproduire une voix d’homme mûr américain. Quels que soient les défauts actuels, le chemin parcouru par la synthèse vocale en vingt ans est impressionnant. Vous ne croyez que vos sens ? Allez donc tester le TTS System de Bell.Prochaine chronique mardi 19 septembre

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

David Groison