|
Le concept du bureau sans papier n'aura été qu'un mirage... Pour des raisons culturelles, légales ou tout simplement pratiques, le document papier résiste vaillamment à la dématérialisation. Paradoxalement, la généralisation des échanges électroniques profite même à la lecture automatique de documents (LAD). En effet, les entreprises souhaitent gérer dans un même flux l'ensemble des documents entrants : e-mail, EDI, formulaire en ligne, mais aussi fax et courrier papier.
Un vrai défi lancé aux éditeurs de LAD, sachant qu'un même pli contient parfois une grande diversité de types de documents, contraints ou non, dactylographiés ou manuscrits, et d'un niveau de qualité variable (grammage, impression...). Une demande d'abonnement comprendra ainsi une lettre d'accompagnement, un formulaire précasé, un RIB et une photocopie de carte d'identité.
De grandes avancées depuis quinze ans
Consacrant entre 15 et 30 % de leur chiffre d'affaires en R&D, les éditeurs ont déjà réalisé de grandes avancées en quinze ans d'existence. Ainsi, sur les documents structurés de types formulaires, bons de commande ou feuilles de soins - leur marché historique -, le taux de reconnaissance des caractères dactylographiés ou manuscrits « bâtons » dépasse couramment les 95 %. Les progrès dans ce domaine restent donc limités. Il s'agit avant tout de « réduire le bruit » des documents de piètre qualité : caractères mal formés, raturés ou abîmés, fond jaunâtre, feuille pelure d'oignon...
Du côté des factures -documents semi-structurés - les travaux en cours portent avant tout sur la création automatique de modèles. « Il n'existe pas deux factures semblables, fait remarquer Pierre de Muelenaere, président d'Iris. La structure et l'emplacement des champs à extraire diffèrent d'un fournisseur à l'autre. Ne pouvant se référer à un modèle unique, comme pour un formulaire, il s'agit d'appliquer un masque et de reconnaître dynamiquement les informations pertinentes : date de la facture, montant, numéro de Siret... Des données exportables directement vers le progiciel comptable. »
D'ici six mois à un an, SWT devrait également lancer un produit répondant à ce principe, en s'appuyant sur sa technologie Free Form. « Une nouvelle facture arrive, le système lui applique un modèle et la reconnaît la fois suivante », résume Franck Signorile, directeur R&D de SWT. Un tel système émet des hypothèses, puis travaille par exclusion et règles logiques. Sachant que l'acronyme HT est invariablement précédé d'un montant et connaissant le taux de TVA, il sera aisé pour le système de le comparer au montant TTC et d'en vérifier l'exactitude.
Le grand chantier de l'écriture cursive
Mais la recherche qui accapare les équipes R&D des éditeurs concerne l'écriture cursive. Soit le dernier chaînon manquant dans le traitement intégral du courrier. Ici, plus de zones connues à l'avance, le moteur travaille en OCR/ICR pleine page pour localiser, puis extraire les donnés pertinentes. Les éditeurs ont commencé par le traitement des chèques, en 2000, puis, plus récemment, par la lecture automatique des pavés adresses (code postal, ville, rue...). Ces deux applications présentent l'avantage de requérir des dictionnaires de taille modeste. Ne nécessitant qu'une trentaine de mots pour en vérifier le montant, le taux de reconnaissance sur les chèques atteint ainsi 70 à 80 %.
L'étape suivante, beaucoup plus audacieuse, consiste à ouvrir le courrier et analyser son contenu. Deux méthodes sont aujourd'hui couramment utilisées. La première, dite de segmentation, emprunte aux réseaux neuronaux ou à l'algorithme de Viterbi. Elle consiste à découper un mot en caractères, puis à le recomposer en se référant aux structures linguistiques les plus fréquentes. « Quelles lettres peuvent logiquement suivrent la série " s ", " t " et " o " ?, s'interroge Bruno Laborie, chef de produit chez Readsoft. En associant cette recherche à un glossaire des noms de villes, le logiciel proposera " Stockholm ". »
La seconde méthode, dite sans segmentation, analyse les caractéristiques hautes et basses des mots, leurs contours et leurs boucles, puis les compare à des échantillons. Pour cela, elle se réfère à la programmation dynamique ou aux modèles de Markov.
En appliquant la technique dite du « voting » , une solution peut faire appel aux deux méthodes et combiner plusieurs moteurs d'interprétation afin d'optimiser le taux de reconnaissance. Ce voting améliore le score de confiance attribué quand le système bute sur un mot mal formé. En prenant l'exemple du mot « exonération » , sur une liste courte de mots candidats, seront éligibles « exonération » (82 %), « estimation » (21 %), « examiner » (13 %) ou « modération » (5 %). Au final, l'opérateur de saisie peut trancher directement sur son poste de vidéocodage.
« Il ne s'agit pas de comprendre l'intégralité du texte, tempère Olivier Baret, responsable R&D de l'éditeur A2iA, mais d'identifier des mots ou des groupes de mots-clés discriminants, tels que " résiliation " ou " changement d'adresse ", autorisant le classement du courrier. » Au-delà de l'extraction de ces mots-clés, « le système doit également saisir le sens général de la phrase en le contextualisant », renchérit Jean-Marc Pédréno, directeur R&D d'Itesoft. «Sinon, on va au devant de contresens sur une phrase du type " Je vous demanderai de ne pas tenir compte de ma demande d'annulation ". »
Alternative aux méthodes avec ou sans segmentation, IMDS Software travaille de son côté sur une approche qu'il qualifie de « perceptive » . « Nous nous rapprochons de la vision humaine, illustre Dominique Ponson, directeur R&D de la société. Le cerveau ne découpe pas les caractères, il lit le mot dans son intégralité. Il suffit de faire le test. Même en inversant une lettre, je " comprensd " le sens du mot. De la même manière, notre système analysera le début du mot, puis déroulera toutes les combinaisons possibles en tenant compte du contexte. » IMDS a concentré ses efforts sur les deux mille mots les plus couramment utilisés. Ce 1 % du dictionnaire qui compose les trois quarts de nos échanges.
La cible : le service courrier de l'entreprise
Quelle que soit la méthode utilisée, les éditeurs prévoient de commercialiser dès l'année prochaine les premières applications de traitement du courrier ouvert. Mais les travaux de recherche devraient se poursuivre encore au moins trois ans. Ce qui leur laissera le temps d'enrichir leurs bases de reconnaissance des premières mises en production, et ainsi de tenir compte de la grande diversité des écritures humaines.
La dématérialisation du courrier ouvrira aux éditeurs un nouveau marché, celui des services courrier des grands comptes, au-delà de leurs clients traditionnels de LAD que sont les vépécistes, les Caisses primaires d'assurance maladie (CPAM) ou les back offices des banques. Elle offre également de nouvelles perspectives. A l'avenir, le système pourrait adresser des réponses automatiques aux demandes les plus simples, ou encore vérifier qu'un dossier contient bien toutes les pièces justificatives demandées.
Ecriture cursive/bâton : l'écriture cursive est manuscrite liée, tracée à la main courante. Son contraire, l'écriture bâton, détache chaque lettre.
Free Form : technique de description logique du document par un balayage intégral. Se distingue du traitement par modèle (ou template ), où le logiciel ne lit que les zones reconnues.
OCR/ICR (Optical/Intelligent Character Recognition) : reconnaissance optique de caractères dactylographiés ou manuscrits.
Segmenter : séparer les blocs d'écriture (phrases, mots) en caractères individuels.
Voting : application combinée de moteurs complémentaires, dans le but de fournir un taux de reconnaissance optimal.
Les travaux sur l'écriture cursive se concrétiseront en début d'année prochaine
![]() |
Cliquez ici pour agrandir l'image |
![]() |
IE 8 sur Windows XP
Rapide, sûre, et personnalisable : IE 8 votre raccourci vers le web.
|
|
![]() |
> Comparatif : SPAM
Suites de sécurité : toutes les informations pour bien se protéger !
|
|
1 Orange
2 Free
3 Bouygues Telecom
> Plus de détails

![]() |
> Logiciel : Internet Download Manager
Optimisez la gestion de vos téléchargements.
|
|
