Vous êtes ici

Rendre plus "propre" un paragraphe extrait d'un fichier PDF

Fichier attachéTaille
Image icon texte.png54.3 Ko

Si comme moi vous avez déjà eu besoin d'extraire du texte d'un fichier qu'une personne (ou entité) a eu - pour diverses raisons 1 2 - la mauvaise idée d'enregistrer au format PDF, vous devez savoir qu'en général la mise en forme pose problème : lorsque vous collez le contenu dans un traitement de texte comme Microsoft Word ou LibreOffice Writer ou encore dans un éditeur de texte, vous avez dû constater qu'à chaque fin de ligne un nouveau paragraphe (avec un retour à la ligne) est créé.

L'horreur.

Sachez toutefois qu'il reste possible de limiter les "dégâts" et de rendre un peu plus exploitable le texte.

Pour cela vous devez soit disposer d'un traitement de texte, soit d'un outil capable de remplacer du texte dans un fichier avec des expressions régulières comme les bien aimés sed et awk ou encore un éditeur de texte qui dispose d'une fonction de suppression des retours à la ligne.

Nous allons voir ici comment procéder avec LibreOffice.

  1. Sélectionnez et copiez le texte dans un fichier PDF (CTRL+C)
  2. Ouvrez LibreOffice Writer et collez le texte (CTRL+V)
  3. Ouvrez la fenêtre de recherche et remplacement (CTRL+H)
  4. Cochez Expressions régulières
  5. Dans Rechercher saisissez le caractère $
  6. Puis cliquez sur Tout remplacer

Nettement mieux déjà, non ?

Il vous restera à rajouter quelques retours à la ligne dont la suppression n'était pas nécessaire, supprimer des tirets ou encore rajouter des espaces entre certains mots. Mais cela représente moins de travail.