Passer au contenu

Scannez votre livre et utilisez la reconnaissance de caractères

Pour commencer, numérisez votre livre papier. Un travail assez simple, une fois que vous aurez trouvé les bons réglages et pris le coup de main.

01 – Photographiez votre livre

Pour la numérisation de vos pages, préférez un appareil photo, équipé d’un trépied, ce sera plus rapide qu’avec un scanner. Si possible, disposez deux lampes halogènes de part et d’autre du livre pour éliminer les ombres et appliquez une large plaque de verre sur le livre pour en aplatir les pages. Désactivez le flash, utilisez la plus grande résolution possible, en mode Macro s’il existe sur votre appareil. Cadrez au plus près et prenez une photo par page. Exportez ensuite vos clichés dans un dossier dédié.

02 – Ouvrez le projet dans FineReader

Vous allez maintenant exploiter un logiciel pour l’étape de reconnaissance optique des caractères souvent désignée sous l’acronyme OCR (Optical Character Recognition). Un tel programme permet de reconnaître, dans un fichier image, des caractères alphanumériques (lettres, chiffres, symboles, ponctuation…) et de les écrire dans un fichier document exploitable par n’importe quel traitement de texte. Nous utilisons ici FineReader, fourni avec de nombreux scanners ou imprimantes multifonctions. Lancez FineReader et cliquez sur le bouton Ouvrir en haut à gauche. Sélectionnez toutes les images dans le dossier créé plus haut. Vérifiez que les cases Détecter l’orientation et Activer le prétraitement (pour corriger les défauts de l’image, par exemple les lignes un peu gondolées) sont cochées, et validez par Ouvrir. FineReader commence à travailler. Déroulez le menu Fichier, Enregistrer le document FineReader… pour enregistrer votre travail.

03 – Corrigez les pages

Cliquez sur la première vignette. Dans la photo, le logiciel utilise des codes de couleur : vert pour le texte reconnu et rouge pour les images. Si l’image comporte des erreurs (il se peut qu’un de vos doigts, photographié par erreur, soit interprété comme une image), cliquez sur cette zone puis appuyez sur Suppr pour l’effacer. Faites de même pour ôter les éléments superflus, par exemple les zones des colonnes de la page en face ou les numéros de pages. Pour changer la taille d’une zone, pour qu’elle n’englobe plus un numéro de page, faites glisser sa bordure verte à la souris. Tapez ensuite Ctrl + R pour relancer l’analyse.

04 – Choisissez le bon format

Dans le menu déroulant de la barre d’outils, vous allez choisir le Type d’enregistrement. Si votre livre ne contient que très peu d’enrichissements (italiques ou gras) que vous pourrez rétablir plus tard facilement à la main, choisissez Texte normal, puis déroulez le menu Outils, Options, Affichage. Dans le menu déroulant Police utilisée, choisissez une police agréable, comme Georgia. Si votre livre contient beaucoup d’enrichissements, choisissez Texte formaté. Dans tous les cas, ne choisissez pas les Copies.

05 – Vérifiez le texte puis exportez-le

Pour chaque image, corrigez le texte directement dans l’interface de droite. Tout en haut à droite, cliquez sur le bouton d’affichage des caractères non imprimables, pour afficher le travail effectué par FineReader. Pour aller plus vite, vous pouvez utiliser le bouton Vérifier l’orthographe et les commandes Ignorer et Remplacer. Quand vous êtes prêt, cliquez tout en haut sur la petite flèche du bouton Enregistrer et sélectionnez Enregistrer dans un document OpenOffice.org Writer. Assurez-vous que le format du fichier est bien Rich Text Format (RTF), et cliquez sur le bouton Enregistrer.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Nicolas Robaux