Passer au contenu

La numérisation intelligente de textes

Fini la paperasse, les coupures de presse, les lettres et factures qui s’amoncellent… Numérisez !

Archiver des documents sous forme numérique fait économiser de l’espace. Et, une fois stockés dans l’ordinateur, ils peuvent être retrouvés rapidement. C’est tout l’intérêt de la Ged ou gestion électronique de documents, à laquelle nous avons consacré un dossier qui traitait de la partie indexation et recherche (lire notre numéro 560, page 42).Mais, pour classer et archiver des documents, il faut les numériser au préalable. La méthode Avertissement basique consiste à les scanner. On obtient un fichier image. C’est simple, mais cela ne permet de retrouver un fichier qu’à partir de son nom ou de mots-clés préalablement attribués. L’autre méthode, bien plus efficace, c’est l’OCR ou Reconnaissance optique de caractères.

Lecture électronique de document

Avec un logiciel d’OCR, vos documents numérisés vont être “ lus ” et convertis dans un format électronique compatible avec votre traitement de texte, votre tableur, etc. Les avantages sont multiples. D’abord, sous cette forme, vos documents prennent moins de place que des fichiers image. Ensuite, on peut parfaitement les éditer, c’est-à-dire que vous pouvez les modifier à loisir, apporter des corrections ou ajouter des annotations. Enfin, et c’est le plus intéressant, ils sont indexés intégralement par votre moteur de recherche local. Cela signifie que vous pouvez faire des requêtes en mode “ plein texte ”, sur le contenu même des fichiers, et non plus seulement sur leur intitulé.

L’OCR en dépannage ou au quotidien

Idéale pour vos archives numériques, la technologie OCR peut aussi vous sauver la mise. Un exemple : suite à une manipulation malencontreuse ou au vol de votre ordinateur, vous n’avez plus le document Word contenant votre thèse ou le premier jet d’un futur roman. Mais tout n’est pas perdu et il vous reste une sortie imprimée. Un logiciel d’OCR vous évitera de tout retaper pour retrouver une version électronique du document. Seule contrainte de taille, la numérisation, qui reste une étape laborieuse. Pour un OCR occasionnel, pas de problème, le scanner d’une imprimante multifonction suffit, à défaut un appareil photo numérique fait même l’affaire. Par contre, pour un travail sur des volumes importants, il faudra soit beaucoup de patience, soit investir dans un scanner pourvu d’un bac de chargement automatique. Un équipement qui s’acquiert aujourd’hui à partir de 400 euros environ.

Comment ça marche ?

Pour parvenir à reconnaître du texte dans un fichier image, l’OCR commence par l’analyser, le redresser si besoin. Il le découpe pour séparer et identifier blocs de texte et images, puis l’analyse par tranches pour repérer les lignes et les colonnes. Les caractères ainsi isolés sont ensuite identifiés par comparaison à une base de données de formes.Enfin, le texte est analysé de façon plus sémantique à l’aide des dictionnaires et outils de correction orthographique pour éliminer les dernières incertitudes. Le document est ensuite exporté selon les spécificités du format de sortie choisi (traitement de texte, tableur, PDF, page Web…) et la mise en page adaptée. Les programmes les plus performants parviennent à restituer fidèlement des documents très complexes avec mise en page, image, conservation des polices de caractères, etc.Les principales difficultés que rencontrent encore les OCR concernent certains types de caractères comme le I et le L ou le O et le 0 qui, dans certaines polices, se confondent aisément ou les caractères liés comme “ fl ” ou “ rn ” par exemple

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Sébastien Casters