Passer au contenu

La voix ouvre de nouveaux marchés dans le monde professionnel

Arrivée à maturité, la reconnaissance vocale entre dans les entreprises. Centre d’appel, portail vocal ou annuaire, les applications se multiplient.

En soi, la reconnaissance vocale (RV) n’est pas nouvelle. La possibilité de “parler” à une machine a toujours alimenté l’imaginaire. Dès 1968, avec HAL, l’ordinateur central du film “2001, l’Odyssée de l’espace”, Stanley Kubrick montrait la peur légitime que pouvait susciter un tel dialogue. Depuis, les résultats décevants de la dictée vocale ont refroidi les ardeurs des utilisateurs. Le positionnement grand public des logiciels de Philips, IBM ou Dragon Systems a porté préjudice à la technologie. Laissés entre des mains novices alors qu’ils exigeaient un apprentissage long et complexe, ces produits n’ont pas été à la hauteur des attentes suscitées par le marketing. Afin d’oublier ce faux départ, les chercheurs s’évertuent, depuis vingt ans, à les optimiser. D’une part, ils augmentent le champ lexical, passé d’une trentaine de mots reconnus au début des années quatre-vingt à un million aujourd’hui. D’autre part, ils améliorent le filtrage du bruit au travers du réseau, fixe ou mobile. Enfin, la technologie évolue vers le mode multilocuteur, qui s’adapte à tout individu, quelle que soit sa voix ou son accent.

Pionniers en France, le transport express et la banque

Technologie aujourd’hui éprouvée, la reconnaissance vocale sort des laboratoires pour entrer dans l’entreprise. Elle permet de contacter un correspondant en prononçant son nom (annuaire et messagerie d’entreprise). Qu’il s’agisse de réserver un coursier ou de passer un ordre de Bourse, elle donne aussi un coup de jeune aux portails de services de type Audiotel. Ces derniers étaient jusqu’alors condamnés aux fréquences vocales DTMF ?” les peu ergonomiques touches du téléphone. La RV s’applique également aux centres de contact, en débordement d’appels ou en frontal pour traiter ceux à faible valeur ajoutée.Encore confidentielle, la convergence web, assurée par les standards VoiceXML ou Salt, annonce le développement d’applications de type lecture d’e-mails ou intranet vocal. Laurent Balaine, PDG de Telisma, croit beaucoup aux principes de mobilité et de multimodalité : “Le vocal est de plus en plus complémentaire à d’autres canaux ; la demande d’informations via la voix peut être, par exemple, suivie d’un SMS”. Un créneau qu’occupe d’ores et déjà la start up américaine Viafone. Bâtie sur le moteur de Nuance, sa solution permet aux commerciaux et aux techniciens nomades de saisir leurs données sur tout type de terminal mobile (assistant personnel, ordinateur portable, GSM). Ainsi, fort de ses promesses, le marché mondial des logiciels de la reconnaissance vocale devrait, selon IDC, passer de plus de 435 millions de dollars en 2000 à 3,55 milliards en 2005.Accusant un retard de deux à trois ans sur les Etats-Unis, le déclic se serait produit en France en 2001. “L’arrivée à maturité des technologies, associée à une meilleure éducation du marché, a créé un véritable cercle vertueux”, estime Patrice Vielpeau, directeur de Speechworks France. Parmi les projets déjà en production, les banques sont très présentes. Fimatex (groupe Société Générale) a été le premier courtier européen à proposer, en avril 2000, le passage d’ordre vocal. Au Crédit Lyonnais, la RV est montée progressivement en puissance afin de tester la réceptivité du marché. En mode dégradé derrière le DTMF, le service de courtage vocal a été placé, cette année, en front office. Les deux banquiers insistent sur l’incontournable adaptation au langage boursier afin d’obtenir un taux de reconnaissance satisfaisant.Autre secteur particulièrement à l’écoute : le transport express. Dès 1999, Chronopost a réfléchi à la mise en place de VTracks (Voice Tracking System), un suivi de colis ou de pli par RV. “L’ergonomie est auto-adaptative, souligne Christian Petrigny, de la DSI de la société de livraison express. En fonction du degré d’expertise de l’appelant, l’information sera délivrée dans un délai de 30 secondes à 1 minute 30.” Le transporteur a néanmoins fait un long travail d’adaptation spéficique, notamment sur les séquences de chaînes alphanumériques. Aujourd’hui, Chronopost obtient moins de 8 % d’appels en échec “du fait de l’appelant”, et quinze à vingt ressources vocales sont sollicitées en permanence sur les trente que compte le système.

Première cause d’échec : l’ergonomie mal pensée

Une application n’entraîne pas forcément la généralisation de la technologie dans l’entreprise, car les choix techniques dépendent souvent de la nature du projet. Certains services vocaux doivent s’appuyer sur des moteurs d’analyse syntaxique, d’autres se satisfont d’une reconnaissance de mots-clés. Un responsable de centre d’appel peut opter d’emblée pour une interface 100 % vocale ou, au contraire, programmer des étapes intermédiaires (DTMF/opérateur). Pour un service Audiotel, l’arborescence visera à allonger la durée d’appel, dans ce cas proportionnelle au revenu généré. Les applications très grand public doivent également être dimensionnées pour supporter plusieurs dizaines de milliers de communications simultanées.Mais quelle que soit l’option choisie, les responsables opérationnels sont tous d’accord sur un point : une application vocale n’est pas un projet informatique comme un autre. L’ergonomie doit être étudiée dès la conception et non, comme dans des développements plus classiques, en phase finale. Si le choix en DTMF se limite aux douze touches du clavier téléphonique, une interface vocale implique des choix beaucoup plus ouverts et explicites. Exemple : pour réduire le taux de “raccrochés”, un ergolinguistique étudie le comportement des locuteurs ?” termes employés, formalisme, ton, etc. ?” à travers l’écoute d’un échantillon représentatif.Ce rodage de plusieurs mois affine le dialogue de façon itérative. Mais cette phase de réglage, encore appelée “tunning”, s’ajoute à l’investissement initial déjà élevé ?” un minimum de 75 000 à 150 000 euros pour une solution packagée trente voix. Un coût parfois d’autant plus lourd à supporter que le retour sur investissement reste difficilement quantifiable. Dans les domaines de la banque/assurance, des télécoms ou du tourisme, la mise en place d’un service vocal non surtaxé améliore, avant tout, l’image de marque et la satisfaction client. Des éléments qui se mesurent mal. Alors qu’un centre d’appel peut, en revanche, trouver sa justification dans des chiffres tels que la quantité d’appels conservés ou le nombre d’opérateurs.

Les services jouent un rôle primordial

Enfin, autre facteur de diffusion des technologies vocales, les services associés tiennent une place prépondérante. Speechworks réalise 40 % de son chiffre d’affaires en prestations, tandis que Telisma ?” éditeur pur ?” préfère s’appuyer sur des partenaires. Parmi les SSII présentes sur le créneau de l’intégration et de l’hébergement, on peut citer Atos Origin, Bull, CGEY, Unisys ou Teamlog. En marge de ces généralistes, Prosodie se définit comme un spécialiste de la RV. Cette SSII intègre les moteurs des grands noms du marché français (Nuance, Philips, Speechworks, Telisma) et propose l’hébergement mutualisé d’applications supportant une grande volumétrie d’appels (au-delà de dix mille appels par mois).Depuis fin 2001, Prosodie propose également la RVAO, ou reconnaissance vocale assistée par opérateur. En cas d’échec, l’appel est écouté par un opérateur humain qui, à l’aide d’un écran de saisie, clique sur le bon mot-clé. “Cette méthode permet d’adapter la grammaire en situation réelle, affirme Thomas Schmidt, consultant. En une à deux semaines, un corpus de cinq à dix mille locutions peut ainsi être constitué.” Après cette solidification, le système atteindrait un taux de transactions abouties “acceptable”, c’est-à-dire supérieur à 85 %. Mais l’approche syntaxique devrait ?” à terme ?” rendre caduc un tel concept. Pour Philippe Devauchelle, en charge du développement du “3000” de France Télécom (gestion des services de l’opérateur), la formulation en langage naturel est presque arrivée à maturité. “Actuellement limité aux mots-clés de l’arborescence, l’utilisateur enchaînera bientôt les commandes en une seule phrase de type ” Activer mon transfert d’appel vers mon mobile “”, explique-t-il. En revanche, pour parler philosophie avec HAL, il faudra encore patienter quelques années.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Xavier Biseul et Stéphanie Chaptal