S'abonner :  Newsletters    Magazines

Le document papier se fond dans le système d'information

[ RECONNAISSANCE DE CARACTÈRES ]
Du texte imprimé à l'écriture cursive
Après les codes alphanumériques et les caractères précasés, la reconnaissance optique s'attaque à l'analyse de l'écriture cursive.

Thierry Jacquot , 01 Informatique (n° 1723), le 09/05/2003 à 00h00

Technologie bureautique ô combien populaire, l'OCR (Optical Character Recognition) s'est également imposée en informatique de production. Elle est devenue l'une des briques incontournables des chaînes de numérisation de flux de documents papier entrants. Cette popularité, elle la doit non seulement aux progrès enregistrés en performance pure, mais aussi à la sophistication des algorithmes de reconnaissance et à des capacités accrues d'analyse de la structure des documents. De l'OCR, on est ainsi passé à l'ICR (Intelligent Character Recognition), puis à l'ODR et à l'IDR (Optical/Intelligent Document Recognition).

L'OCR, dans ses grandes lignes, porte sur l'analyse des fichiers graphiques « bitmap » générés lors de la numérisation des documents. Elle s'intéresse à la reconnaissance des caractères alphanumériques et des éléments de mise en forme de ces informations, voire à la structure même du document. Les moteurs OCR recourent largement aux technologies de l'intelligence artificielle, mises au service d'une approche statistique de la reconnaissance. Pour reconnaître un caractère, un logiciel d'OCR met en oeuvre divers algorithmes et élabore des hypothèses de reconnaissance. Grâce à des mécanismes dits de « voting » , le logiciel de reconnaissance détermine ensuite laquelle de ces hypothèses de reconnaissance recueille le plus grand score, et avec quel degré de précision. Certains logiciels sont aussi capables de traiter d'autres fichiers que ceux générés par les scanners, comme les PDF.

L'OCR étant désormais une discipline bien maîtrisée, les éditeurs se sont lancés sur d'autres pistes technologiques. A commencer par l'ICR, sorte de variante de l'OCR, adaptée à la reconnaissance des caractères manuscrits séparés. L'ICR a été adoptée par nombre d'applications de LAD (lecture automatique de documents) pour traiter les documents précasés, tels que les enveloppes postales ou les imprimés administratifs.

Des avancées dans l'analyse de l'écriture cursive

On en vient aussi à la reconnaissance de l'écriture cursive. Les sociétés A2IA et Parascript proposent ainsi à leurs partenaires OEM leur moteur de reconnaissance sous forme de kit de développement. Plus ardu que l'OCR, le traitement de l'écriture cursive s'appuie sur de nouveaux algorithmes. La reconnaissance s'effectue en effet à l'échelle du mot, et non plus du caractère, les hypothèses étant alors confrontées à des dictionnaires thématiques bien plus réduits que ceux utilisés pour l'OCR.

En dépit de leurs avancées récentes, ces techniques ne peuvent s'affranchir des particularismes scripturaux. Ainsi A2IA a-t-il été amené à décliner son moteur Fieldreader en versions adaptées non seulement aux langues, mais aussi aux pays dans lesquels l'outil est commercialisé. En l'état actuel, les outils de reconnaissance de l'écriture cursive n'ont certes pas pour vocation à être employés pour effectuer de la reconnaissance plein texte. Ce qui serait d'emblée contre-productif. On leur demande plutôt de rechercher et d'identifier des mots-clés ou de reconnaître et d'extraire des portions de texte en relation avec ces mots-clés. En ce sens, la reconnaissance de l'écriture cursive se présente comme un outil de plus au service de l'IDR (Intelligent Document Recognition). Une discipline émergente, qui a pour finalité d'automatiser le traitement des documents non structurés en fonction des informations reconnues.

Société d'encouragement à l'élevage du cheval français (SCEF) : un temps de saisie réduit de deux tiers

« La SECF, l'association gérante des courses de trot en France, devait optimiser le traitement des vingt mille contrats et formulaires qui lui parviennent chaque année. Avec la mise en place d'une chaîne de numérisation et de reconnaissance optique, elle espère économiser les deux tiers de ce temps et mieux maîtriser ses flux d'information. « Jusqu'alors, la saisie des contrats s'effectuait manuellement sur AS/400. Et nous rencontrions des difficultés pour associer la saisie informatique avec le document lui-même » , explique Roger Froloff, directeur informatique de l'association. Celle-ci s'est donc adressée à la SSII Iridis pour installer une solution de gestion de données basée sur Content Manager d'IBM, le logiciel de numérisation Ascent Capture de Kofax et le moteur de reconnaissance Fieldreader d'origine A2IA. Ce dernier est exploité pour sa capacité de reconnaissance des caractères manuscrits inscrits sur des documents semi-structurés précasés. Cette solution permet aux employés d'enclencher un processus automatique de numérisation, de reconnaissance et d'archivage. « La reconnaissance s'effectue en deux temps. On vérifie que le document est acceptable et lisible. Puis, si le contrat est accepté, les données extraites servent à indexer les documents et sont confrontées aux données préexistantes de la base. »



> Logiciel :
EBP Pack Etudiant
Apprenez à gérer l’activité d’une entreprise.

publicité
Télévision
Ringardes, les séries françaises ?

classement FAI
Retrouvez chaque semaine le classement des fournisseurs d'accès avec ip-label 1 Orange 2 Free 3 Bouygues Telecom > Plus de détails
offres d'emploi
Stockage
Dvico TViX HD 1To. Disque dur numérique. Comparez les prix !

Service 01net
Newsletters 01net
abonnez vous gratuitement !
  
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.