Passer au contenu

Utiliser un logiciel d’OCR

Deux réglages sont à prendre en compte plus particulièrement pour réussir la reconnaissance optique de caractères : celui de la résolution et celui de la luminosité.

La reconnaissance optique de caractères, ou OCR (Optical character recognition), permet de récupérer dans un traitement de texte, sans avoir à le ressaisir, un écrit imprimé.
On peut appliquer cette technique à quantité de documents : lettres, articles de presse, formulaires, etc.L’opération se réalise en deux temps. Tout d’abord, on numérise le document. Ensuite, on effectue la reconnaissance des caractères à l’aide du programme d’OCR, généralement celui fourni avec le scanner.Comme pour toute numérisation, il est impératif d’optimiser les réglages. A commencer par celui de la résolution. Plus on adopte une résolution élevée, meilleure sera la numérisation.Cela dit, des détails parasites risquent de nuire au travail de reconnaissance. En règle générale, essayez d’abord avec une résolution de 300 ppp (points par pouce).
Lorsque les caractères d’un texte à numériser sont petits, c’est-à-dire inférieurs à 8 points, augmentez cette résolution à 400 ppp.Au contraire, pour numériser un texte dont la taille des caractères est élevée, il faut réduire la résolution, à 200 ppp par exemple.Par conséquent, pour numériser un document qui comporte différentes tailles des caractères (celle du titre et celle du texte, par exemple), il est préférable d’effectuer une numérisation particulière pour chacune des zones ainsi repérées.

Seul le mode Noir et blanc fonctionne pour la reconnaissance de caractères

Le mode de colorimétrie influe lui aussi sur la qualité de la reconnaissance du texte. C’est pourquoi il faut obligatoirement numériser en mode Noir et blanc (ou LineArt).Cela signifie que chaque point n’a que deux valeurs possibles : blanc ou noir.
Aussi, lorsque le document original comporte un fond de couleur, ou encore lorsque celui-ci est de mauvaise qualité, le programme de reconnaissance optique de caractères ne parvient pas toujours à faire la différence entre le texte et le reste du document.Dans ce cas, il faut, avant la numérisation, diminuer la luminosité afin d’optimiser la reconnaissance du texte. La valeur moyenne de la luminosité étant de 128, le passage à 85 est un choix judicieux.Autre problème à régler : l’interlettrage est réduit. Dans ce cas, il faut augmenter la luminosité. En revanche, quand les caractères sont morcelés, voire partiellement invisibles, il faut la diminuer.Enfin, une fois le document numérisé, vous devez vérifier que tous les caractères sont lisibles. Pour cela, utilisez la fonction Loupe (parfois appelé Zoom avant) du logiciel d’OCR.
Si le résultat est de qualité, il ne vous reste plus qu’à récupérer le texte dans le traitement de texte. Dans le cas contraire, il faut renouveler la numérisation en modifiant les réglages.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Ludovic Arbelet