Passer au contenu

La reconnaissance vocale multilocuteur

L’usage de la reconnaissance vocale multilocuteur se développe. La clé de son succès ? Une ergonomie maximale.

Un serveur vocal réussi possède la meilleure ergonomie possible. Celle-ci passe par une optimisation du moteur de reconnaissance vocale pour que le taux de succès des requêtes dépasse les 95 %. Pour cela, le corpus ?” fichier où ont été enregistrées des voix ?” doit être varié. Il comprend entre mille et cinq mille voix différentes, dont quelques-unes enregistrées à travers des téléphones portables, s’il s’agit d’un service mobile. Cela permet au moteur de reconnaître un maximum de phonèmes, c’est-à-dire les sons élémentaires composant le langage ?” le français en comprend trente et un ?” quels que soient son interlocuteur ou son mode de communication.Le dictionnaire doit être suffisamment petit ?” pour que le moteur ne perde pas de temps à identifier des mots ?” et assez grand pour limiter au maximum les risques de confusion et prévoir les différentes phonétisations d’un même terme. Dans le cadre d’un portail ou d’un serveur multilingue, il faut penser à une gestion dynamique des dictionnaires pour basculer rapidement sur celui correspondant au service ou à la langue demandée par le client. Si la requête est incomplète ou incomprise, le scénario d’appel doit comprendre des relances pour obtenir les informations manquantes.A la différence d’un système de reconnaissance mono-utilisateur, la majeure partie du travail d’ergonomie se fait avant la mise en place du service. Même si des ajustements se font durant sa vie, en raison, par exemple, de l’oubli de la phonétisation d’un mot ou encore pour ajouter une nouvelle valeur au dictionnaire.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Stéphanie Chaptal