Passer au contenu

Parlez à votre site web, il vous répondra…

Adieu clics, souris, clavier ! Quoi de plus pratique que la voix pour naviguer sur internet. C’est toute la promesse de la reconnaissance vocale, qui augure de multiples applications. Une technologie désormais opérationnelle.

S ‘il est utile de consulter l’état de la circulation sur un portail d’informations routières avant de quitter le bureau, interroger la même source en conduisant suppose des manipulations hasardeuses : celle d’un téléphone portable relié à internet, par exemple. Pour éviter l’accident, la solution pourrait bien venir de la reconnaissance et de la synthèse vocales. Xavier Lamming, un expert de la cellule recherche et développement de France Telecom, estime que les technologies sont désormais au point :” Nous travaillons sur le sujet depuis une vingtaine d’années. Au départ, l’objectif était de développer des moteurs de reconnaissance vocale dans le but d’améliorer les interfaces homme- machine. On travaille aujourd’hui au perfectionnement de la technologie : détection et isolation du bruit environnant, du bruit sur la ligne, et optimisation de la fiabilité de reconnaissance en fonction de l’élocution.

Vers la vocalisation des pages web

Depuis le début de l’année dernière, les projets de l’opérateur se sont orientés vers l’application de la reconnaissance vocale à la navigation sur internet. En ajoutant un nouveau mode d’accès au web, l’idée est d’élargir l’audience des sites en captant de nouveaux utilisateurs, mais aussi de susciter une nouvelle habitude de consultation chez les visiteurs habituels. La vocalisation des pages web a été facilitée par les travaux menés autour du Voice XML, un standard dérivé du langage XML, initié en 1998 par AT&T, IBM, Lucent et Motorola. Combiné aux technologies de reconnaissance vocale, le Voice XML permet d’accéder au web via un téléphone ou un navigateur à commandes vocales. En d’autres termes, ce standard autorise l’ajout, dans des pages internet, de balises destinées à marquer un contenu vocal. Leur interprétation peut d’ailleurs se faire dans les deux sens : speech to text, pour traduire la demande vocale de l’internaute en une requête XML qui pourra interroger les bases de données du site, et text to speech, pour convertir le résultat de la recherche en une réponse parlée. Et pour gérer l’interface utilisateur, le moteur de reconnaissance vocale, qui peut aussi assurer la synthèse, est couplé à un serveur téléphonique qui traite la réception et l’émission des messages parlés.En amont du projet de vocalisation d’un service internet, il faut définir le modèle que va employer le moteur de reconnaissance vocal. Une tâche primordiale et fastidieuse, comme l’explique Laurent Courtois, directeur marketing de Telisma :”On collecte d’abord des échantillons vocaux. Ils serviront aux bibliothèques génériques sur la base desquelles on pourra créer des modèles.” La taille de ces derniers est dépendante du vocabulaire qui doit pouvoir être compris. Il convient donc de définir les requêtes que les utilisateurs effectueront en fonction de l’information que le portail distribuera par le canal vocal.”Un modèle de 1000 mots peut suffire à certains services d’informations ciblées. Mais nous travaillons d’ores et déjà sur des modèles de plusieurs dizaines de milliers de mots“, poursuit Laurent Courtois, dont la start-up ?” une émanation de France Telecom recherche et développement, créée en septembre 2000 ?” a déjà levé 7,32 millions d’euros pour son premier tour de table.Tous les spécialistes de la reconnaissance vocale, comme Telisma, IBM, Lernout & Hauspie, Philips, ou encore la start-up lyonnaise Théorom, développent aussi des solutions en langage naturel, en modélisant des grammaires. Pour Jean-Marc Langé, responsable des solutions vocales d’IBM France,”le “Natural Language Understanding” autorise l’utilisateur à établir un dialogue intuitif classique avec la machine, sans être contraint d’utiliser des phrases ou expressions trop figées “. Laurent Courtois précise toutefois que toute la méthode consiste surtout à être capable d’isoler des mots clés et de créer, entre eux, des associations pour interpréter la requête vocale de l’internaute.Depuis la fin de l’année dernière, la Société Générale teste un tel système, développé par France Telecom auprès d’une partie de ses clients. Ceux-ci peuvent passer leurs ordres de Bourse, consulter les cours, suivre l’avancée de leurs transactions en parlant normalement. Mais le champ d’étude ne se limite pas au secteur bancaire ou financier. D’autres expérimentations sont menées avec des services de recherche et de réservations sur le web.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Christophe Dupont