Parlez à votre site web, il vous répondra...

S ‘il est utile de consulter l’état de la circulation sur un portail d’informations routières avant de quitter le bureau, interroger la même source en conduisant suppose des manipulations hasardeuses : celle d’un téléphone portable relié à internet, par exemple. Pour éviter l’accident, la solution pourrait bien venir de la reconnaissance et de la synthèse vocales. Xavier Lamming, un expert de la cellule recherche et développement de France Telecom, estime que les technologies sont désormais au point :” Nous travaillons sur le sujet depuis une vingtaine d’années. Au départ, l’objectif était de développer des moteurs de reconnaissance vocale dans le but d’améliorer les interfaces homme- machine. On travaille aujourd’hui au perfectionnement de la technologie : détection et isolation du bruit environnant, du bruit sur la ligne, et optimisation de la fiabilité de reconnaissance en fonction de l’élocution.“

Vers la vocalisation des pages web

Depuis le début de l’année dernière, les projets de l’opérateur se sont orientés vers l’application de la reconnaissance vocale à la navigation sur internet. En ajoutant un nouveau mode d’accès au web, l’idée est d’élargir l’audience des sites en captant de nouveaux utilisateurs, mais aussi de susciter une nouvelle habitude de consultation chez les visiteurs habituels. La vocalisation des pages web a été facilitée par les travaux menés autour du Voice XML, un standard dérivé du langage XML, initié en 1998 par AT&T, IBM, Lucent et Motorola. Combiné aux technologies de reconnaissance vocale, le Voice XML permet d’accéder au web via un téléphone ou un navigateur à commandes vocales. En d’autres termes, ce standard autorise l’ajout, dans des pages internet, de balises destinées à marquer un contenu vocal. Leur interprétation peut d’ailleurs se faire dans les deux sens : speech to text, pour traduire la demande vocale de l’internaute en une requête XML qui pourra interroger les bases de données du site, et text to speech, pour convertir le résultat de la recherche en une réponse parlée. Et pour gérer l’interface utilisateur, le moteur de reconnaissance vocale, qui peut aussi assurer la synthèse, est couplé à un serveur téléphonique qui traite la réception et l’émission des messages parlés.En amont du projet de vocalisation d’un service internet, il faut définir le modèle que va employer le moteur de reconnaissance vocal. Une tâche primordiale et fastidieuse, comme l’explique Laurent Courtois, directeur marketing de Telisma :”On collecte d’abord des échantillons vocaux. Ils serviront aux bibliothèques génériques sur la base desquelles on pourra créer des modèles.” La taille de ces derniers est dépendante du vocabulaire qui doit pouvoir être compris. Il convient donc de définir les requêtes que les utilisateurs effectueront en fonction de l’information que le portail distribuera par le canal vocal.”Un modèle de 1000 mots peut suffire à certains services d’informations ciblées. Mais nous travaillons d’ores et déjà sur des modèles de plusieurs dizaines de milliers de mots“, poursuit Laurent Courtois, dont la start-up ?” une émanation de France Telecom recherche et développement, créée en septembre 2000 ?” a déjà levé 7,32 millions d’euros pour son premier tour de table.Tous les spécialistes de la reconnaissance vocale, comme Telisma, IBM, Lernout & Hauspie, Philips, ou encore la start-up lyonnaise Théorom, développent aussi des solutions en langage naturel, en modélisant des grammaires. Pour Jean-Marc Langé, responsable des solutions vocales d’IBM France,”le “Natural Language Understanding” autorise l’utilisateur à établir un dialogue intuitif classique avec la machine, sans être contraint d’utiliser des phrases ou expressions trop figées “. Laurent Courtois précise toutefois que toute la méthode consiste surtout à être capable d’isoler des mots clés et de créer, entre eux, des associations pour interpréter la requête vocale de l’internaute.Depuis la fin de l’année dernière, la Société Générale teste un tel système, développé par France Telecom auprès d’une partie de ses clients. Ceux-ci peuvent passer leurs ordres de Bourse, consulter les cours, suivre l’avancée de leurs transactions en parlant normalement. Mais le champ d’étude ne se limite pas au secteur bancaire ou financier. D’autres expérimentations sont menées avec des services de recherche et de réservations sur le web.

Combien ça coûte : Solutions modulables et prix variables

Il appartient à chaque entreprise cliente de choisir le nombre de communications simultanées qu’elle souhaite pouvoir gérer. Le coût d’une infrastructure basée sur la solution logicielle IBM Websphere Voice Server est d’environ 2000 dollars (2150 euros) par voie de communication. Chez Natural Microsystems, la plateforme Hearsay, qui comprend la carte dinterface téléphonique AG 4000 et le moteur de reconnaissance vocale de Nuance, est facturée 4421 euros (29000 francs), auxquels il faut ajouter 1524 euros par ligne téléphonique.

IDC évalue à 16 milliards de dollars le marché des services web to phone en 2004 (208 millions en 2000, selon la même source). Les portails devraient en être les principaux moteurs. Les services de commerce par commande vocale et les applications associées représenteront à eux seuls 5 milliards de dollars en 2005, selon le cabinet Kelsey Group, qui estime que 18 millions de personnes navigueront alors sur le web par reconnaissance vocale.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Christophe Dupont