Passer au contenu

Nettoyez le fichier avec OpenOffice Writer

FineReader assure une reconnaissance correcte des textes numérisés, mais laisse des imperfections. Gommez-les avec OpenOffice Writer.

01 – Isolez les enrichissements

Lancez OpenOffice Writer et ouvrez le fichier au format RTF créé par FineReader à l’étape précédente. Nous allons isoler les italiques afin de ne pas les perdre lorsque nous éliminons les styles superflus. Tapez Ctrl + F. Dans la fenêtre Rechercher & Remplacer, cliquez sur Autres options, cochez Expressions régulières. Dans le champ Rechercher, saisissez (.*). Cliquez sur Attributs, cochez Inclinaison, validez par OK. Cochez la case Y compris les styles. Dans Remplacer par, saisissez µdebIµ$1µfinIµ. Cliquez sur Tout remplacer. Toutes les italiques sont maintenant “ étiquetées ”. Faites la même chose avec les attributs gras ou souligné en utilisant l’attribut Graisse ou Soulignage et en employant µdebGµ$1µfinGµ ou µdebSµ$1µfinSµ comme étiquettes.

02 – Effacez les styles et rétablissez les enrichissements

Placez le curseur au début du document, faites Ctrl + A pour tout sélectionner, copiez avec Ctrl + C, ouvrez le Bloc-notes de Windows et collez tout (Ctrl + V). Toujours dans le Bloc-notes, refaites Ctrl + A puis Ctrl + C. Retournez dans Writer, tapez Ctrl + N pour créer un nouveau document et copiez-y votre texte (Ctrl + V) : vous obtenez un texte tout neuf et vierge de tout enrichissement. Ouvrez la fenêtre des styles en tapant F11, vous constatez que le seul style appliqué est Standard. Remettons maintenant les italiques en utilisant les étiquettes de l’étape précédente. Ouvrez la fenêtre Rechercher & Remplacer par Ctrl + F, cliquez sur Autres options, cochez Expressions régulières, décochez Y compris les styles, dans le champ Rechercher, saisissez µdebIµ([^µ]*)µfinIµ et cliquez sur Aucun format. Dans le champ Remplacer par, saisissez $1, cliquez sur Format…, choisissez dans l’onglet Police le style Italique et validez par OK. Cliquez sur Tout remplacer et constatez que les italiques sont bien revenues. Procédez de façon similaire pour rétablir les enrichissements gras et souligné.

03 – Améliorez le texte

Toujours à l’aide de cette fenêtre Rechercher & Remplacer, vous allez nettoyer le texte. Il faut d’abord éliminer les tirets conditionnels qui proviennent des mots coupés dans le scan d’origine. Pour cela, sans refermer la fenêtre Rechercher & Remplacer, sélectionnez un de ces tirets dans le texte et copiez-le (Ctrl + C). Collez-le (Ctrl + V) dans le champ Rechercher, videz le champ Remplacer par en effaçant tout ce qu’il contient, décochez toutes les cases du bas, cliquez sur Aucun format, et faites Tout remplacer. Utilisez de la même façon cette fonction Rechercher & Remplacer pour corriger les autres erreurs récurrentes du texte, par exemple les “ œ ” mal écrits.

04 – Définissez les styles

Vous devez maintenant réfléchir aux styles, ou mises en forme, que vous allez intégrer dans votre livre. Les enrichissements (taille des caractères, gras, centré…) doivent se faire par l’intermédiaire des styles et non directement dans le texte. Il vous faut au minimum trois styles : Titre, Auteur et Titre1. Tous les titres de paragraphes affectés du style Titre1 seront, par la suite, mentionnés dans la table des matières. Pour ouvrir la fenêtre des styles, tapez la touche F11 puis sélectionnez Styles de texte dans le menu déroulant du bas.

05 – Créez un style Auteur

Si vous cherchez dans la liste Tous les styles de la fenêtre de styles, vous n’y trouverez pas de style Auteur. Créons-le à partir du style Standard. Faites un clic droit sur Standard, puis Nouveau. Dans le champ Nom de l’onglet Gérer, saisissez Auteur. Activez l’onglet Retraits et espacement. Dans la liste Espacement, spécifiez l’espace libre à laisser au-dessus et en dessous du nom de l’auteur (la frappe répétée de la touche Entrée pour laisser des espaces vides est une erreur de débutant). Dans l’onglet Alignement, choisissez Centré. Terminez la mise en forme par l’onglet Police. Ne prenez pas de fonte trop exotique : elle ne sera peut-être pas lisible sur toutes les liseuses ou tablettes. Nous vous conseillons Georgia. Sans toucher aux autres onglets, validez par OK.

06 – Appliquez les styles

Pour modifier les styles existants (interlignage, police et tailles de caractères…), il vous suffit de faire un clic droit sur un des styles déjà existants Titre, Standard et Titre1 et de choisir Modifier. Quand tous les styles sont correctement définis, placez le curseur sur le nom de l’auteur et double-cliquez sur le style Auteur dans la fenêtre des styles : le style s’applique au paragraphe de l’auteur. Faites de même pour le titre du livre (style Titre) et pour les titres de chapitres (style Titre1). Au lieu du double-clic, vous pouvez utiliser pour ces derniers le raccourci clavier Ctrl + 1 sur le pavé numérique.

07 – Installez l’extension writer2xhtml…

Ouvrez votre navigateur Internet et affichez la page www.tinyurl.com/39vh4oz et cliquez sur le bouton vert Get It! Enregistrez sur le Bureau le fichier writer2xhtml.oxt. Une fois le téléchargement terminé, double-cliquez dessus : le gestionnaire d’extensions d’OpenOffice se lance, validez l’installation par OK puis Fermer quand l’opération est terminée.

08 – … et exportez en.xhtml

Enregistrez à présent votre livre au format XHTML. Dans Writer, déroulez le menu Fichier, Exporter, choisissez XHTML 1.1 + MathML 2.0 (.xhtml) dans la liste Format de fichier et validez par Exporter. Dans la fenêtre des options qui s’affiche, laissez le style Format d’origine et ne cochez que Convertir unités en pixels et Exporter les notes. Cliquez sur Exporter : le fichier XHTML est créé.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Nicolas Robaux