Les serveurs vocaux interactifs (SVI) se sont généralisés en frontal des services ouverts au public par téléphone. Ils orientent alors les appels vers la bonne personne ou répondent à toute heure, en mode self-service, pour donner l'état d'un compte, enregistrer une commande, déclencher un virement ou fournir l'historique d'opérations. Ces tâches répétitives sans valeur ajoutée sont alors réalisées à moindre coût. Ces SVI étaient jusqu'alors bâtis à partir de technologies propriétaires. L'émergence du standard VoiceXML (VXML) démocratise leur déploiement.
Des services de communication interactifs
VXML est un langage de programmation pérenne et portable, normalisé par le World Wide Web Consortium (W3C). Il sert à développer des services de communication interactifs, convergents avec Internet. Il permet d'élaborer un scénario d'accueil de l'appelant en intégrant de multiples possibilités : jeu d'un message préenregistré, reconnaissance des touches tapées sur le clavier téléphonique (DTMF, ou Dual tone multiple frequency) pour conditionner une interaction, enregistrement d'un message et transmission par e-mail, emploi de la reconnaissance et de la synthèse vocales, gestion de plusieurs canaux (e-mail, SMS, fax et Web), traitement des appels entrants ou sortants, transfert d'appel, etc.
Les poids lourds du SVI se renforcent dans le VXML. En avril, Genesys, leader des outils d'interaction pour centres de contacts, a acquis VoiceGenie, spécialiste des plates-formes VXML. Microsoft a adopté VXML pour son serveur vocal à petit prix, Speech Server 2007. Prosodie, champion du SVI propriétaire, bascule sur VXML. « Nos plates-formes étaient déjà paramétrables à distance par nos clients, comme le permet VXML, explique Anne Lacouberie, responsable marketing de Prosodie. Mais l'atout du VXML est qu'il rentabilise les investissements web de l'entreprise. »
Un atout souligné par tous les professionnels. Le VXML interroge le système d'information en temps réel via l'infrastructure existante. Exemple chez Vert Baudet, spécialiste de la mode et de la décoration pour les futures mamans et les enfants : son service vocal de prise de commande AlloKid (0892 69 69 09) s'interface avec son système d'information, à l'instar de son site d'e-commerce, afin de vérifier en temps réel la disponibilité de quinze mille produits. Il repose sur un SVI VXML, loué en mode ASP à Eloquant. L'application VXML a été développée avec les outils VocaBase de DB Scape.
Développer un scénario vocal dix fois plus vite
« Avec le VXML, on développe un scénario vocal au moins dix fois plus vite qu'auparavant, affirme, pour sa part, Éric Gayraud, responsable marketing d'App-line, qui propose Sibilo Voice, un SVI VXML. Les développements sont rapides car c'est un langage interprété qui ne nécessite pas de recompilation pour ajouter un programme. » La création de portails vocaux s'effectue sans compétences particulières dans le domaine vocal.
Une page VXML peut être dynamique, créée à la volée par un serveur d'applications ou avec le langage PHP. Elle est lue par un navigateur VXML comme une page HTML par un navigateur web. Le navigateur VXML est commandé à distance par l'utilisateur via son téléphone, en tapant sur son clavier ou en prononçant des mots. Le serveur VXML réagit par la demande d'une nouvelle page VXML ou par un message sonore, issus de la concaténation de fichiers de sons qui donne le solde d'un compte.
Des mécanismes propriétaires encore nécessaires
Le VXML intègre également les moteurs de reconnaissance vocale (ASR, Automatic speech recognition) et de synthèse vocale (TTS, Text to speech) grâce au protocole MRCP. Pour les utiliser, le développeur n'a qu'à écrire, dans le code VXML, le texte à lire en voix de synthèse ou qu'il faudra reconnaître. Il est inutile de recompiler en cas de modification. Des extensions de VXML étoffent ce fonctionnement et renforcent la portabilité. La spécification SRGS guide le moteur d'ASR sur les choix de mots possibles de l'utilisateur. Quant à SSML, il définit la prononciation de la synthèse vocale TTS.
« Attention à ne pas remplacer systématiquement la navigation par touches DTMF par la prononciation de mots-clés » , avertit Éric Gayraud. « Une application à base de reconnaissance vocale est plus complexe à réaliser », renchérit Pierre Plouviet, directeur du développement de Jet Multimédia, qui gère 2 400 accès VXML simultanés pour les caisses primaires d'assurance maladie (CPAM) sur des SVI App-line. Une fois qualifiés via les touches du combiné, les appels sont distribués vers des téléconseillers répartis sur soixante-quinze plateaux virtuels.
« Nous proposerons aux CPAM de la synthèse vocale avec la technologie Acapela Group, poursuit-il, mais nous réserverons la reconnaissance vocale aux seuls professionnels de la santé. » Pour cela, Jet Multimédia attendait que la plate-forme d'ASR de Telisma respecte MRCP. Même si les principaux moteurs d'ASR et de TTS (Acapela, Loquendo, Nuance-Scansoft et Telisma) ont progressé, l'usage de la reconnaissance vocale paraît en retrait comparé à celui de la synthèse vocale. L'ASR accélère cependant certains processus : qualification d'un appel à partir d'une question ouverte ou reconnaissance d'un numéro.
« United Airlines aligne mille cinq cents ports VMXL avec un SVI Genesys et la reconnaissance vocale de Nuance pour réserver un billet aux États-Unis », illustre Philippe Mouret, responsable solutions de Genesys. Par le numéro 1-800-864-8331, le service reconnaît les villes de départ et d'arrivée, les horaires, le type de billet désiré, etc.
VXML n'est toutefois pas totalement abouti. Des mécanismes propriétaires restent nécessaires pour certaines actions. C'est le cas pour déclencher des appels sortants. Quant aux appels entrants, « le nouveau standard CCXML est insuffisant pour gérer, via un ACD (Automatic call distribution), les ressources d'un centre de contacts », assure Éric Gayraud. « CCMXL ne permet pas de récupérer des informations de contexte, par exemple, le numéro de compte client à partir du numéro de téléphone », termine Philippe Mouret.
En Belgique, le 1313 est un opérateur de renseignements téléphoniques. Il a retenu la solution de SVI VXML en mode ASP d'Eloquant pour répondre aux demandes en français et en flamand. Le SVI qualifie les appels et les oriente vers l'un des trois centres d'appels (français, belge ou offshore) du 1313. L'appelant est mis en relation avec un agent qui effectue la recherche, puis repasse la main au SVI pour énoncer le résultat par synthèse vocale.
Pour l'annuaire inversé, tout est automatisé. L'appelant tape le numéro de téléphone en DTMF et le SVI lui lit les coordonnées par synthèse vocale. « Nous avons dû adapter la prononciation de milliers de mots au contexte belge en travaillant avec Acapela », précise Alexandre Gaschard, PDG d'EDA, l'opérateur du 1313. Le service n'utilise pas la reconnaissance vocale, « qui n'est pas suffisamment au point », estime le PDG. Eloquant annonce gérer trente millions d'appels en VXML par an pour ses clients. Il recourt aux technologies d'Acapela ou de Nuance pour la synthèse et la reconnaissance vocales.
Les SVI deviendront à 100 % logiciels grâce à la téléphonie sur IP. Déjà, certains SVI traitent le signal vocal de façon logicielle en utilisant des plates-formes comme OpenCall Media Platform (OCMP), de HP, ou, plus récemment, Host Media Processing (HMP), d'Intel. On se passe alors des cartes matérielles de Dialogic ou de Natural Micro Systems. Eloquant a ainsi déployé OCMP sur quatre serveurs Unix et gère trois mille ports vocaux. OCMP effectue le codage de la voix, la reconnaissance des fréquences DTMF ou des mots, le jeu d'un fichier audio, l'enregistrement audio, etc.
App-line, pour sa part, a développé son propre SVI logiciel, à la fois voix sur IP et téléphonie classique. Il gère de un à huit accès E1 (soit de 30 à 240 ports) dans un serveur. La voix sur IP nécessite cependant une passerelle de traduction des appels VoIP vers le réseau téléphonique classique comme en fournissent Cisco Systems ou AudioCodes. Ces passerelles deviendront inutiles au fur et à mesure que les opérateurs délivreront des accès en IP pour le téléphone.
CCXML (Call control extensible markup language) :
langage contrôlant l'établissement, la supervision et l'interruption des appels.
![]()
MRCP (Media resource control protocol) :
ce protocole standardise le dialogue entre un SVI et des moteurs de reconnaissance vocale ou de synthèse vocale.
![]()
SRGS (Speech recognition grammar specification) :
spécification qui décrit les choix possibles de l'utilisateur d'un service vocal pour naviguer par reconnaissance vocale.
![]()
SSML (Speech synthesis markup language) :
ce langage standardise le contrôle des aspects comme la prononciation, le volume, le débit, etc. dans la synthèse vocale.
L'industrie des serveurs vocaux interactifs adopte le standard VoiceXML.
![]()
VoiceXML démocratise le développement de portails vocaux grâce à sa simplicité, sa pérennité, sa portabilité et les protocoles associés. Il intègre aisément des moteurs de synthèse et de reconnaissance vocales.
![]()
Une application VoiceXML accède au système d'information de l'entreprise en réutilisant les services web déjà existants.
![]()
VXML ne standardise pas encore certains aspects comme les appels sortants ou l'accès au contexte d'un appel entrant.
![]() |
> Nouveauté :
Axalot Un logiciel de sauvegarde simple, efficace et gratuit
|
|
![]() |
> ChanceRoom
Découvrez la nouvelle Poker Room montante.
|
|
1 Bouygues Telecom
2 Free
3 Orange
> Plus de détails

![]() |
Service Kiosque :
Préservez la nature en téléchargeant vos magazines en illimité !
|
|
