pdf

PDF vers Word : quel outil de conversion préserve réellement votre mise en forme ?

La plupart des convertisseurs PDF vers Word détruisent vos tableaux, brouillent les polices ou ignorent complètement les images. Voici ce qui fait un bon convertisseur, pourquoi les PDF numérisés nécessitent l'OCR et comment gérer chaque type de PDF.

L’équipe Pixoate8 min de lecture

Le PDF a été conçu pour s'afficher de façon identique sur tous les appareils. C'est sa grande force, et c'est aussi ce qui le rend pénible à modifier. Quand vous convertissez un PDF en Word, vous demandez à un outil de procéder à une rétro-ingénierie du document — déterminer quels caractères appartiennent à quel paragraphe, où se trouvent les tableaux, ce qui constitue un titre, ce qui est une note de bas de page et ce qui ne l'est pas. Certains convertisseurs s'en sortent bien. La plupart le font mal.

Voici un arbre de décision rapide, et ce qui fait qu'un convertisseur est vraiment bon.

Première question : le PDF est-il un vrai PDF ou une numérisation ?

Si vous pouvez sélectionner le texte avec votre souris dans le lecteur PDF, il s'agit d'un véritable PDF contenant du texte réel. Si vous ne le pouvez pas — si le texte se comporte comme une image — alors c'est un document numérisé, même s'il n'en a pas l'air. La méthode de conversion est totalement différente.

Pour les vrais PDF

PDF en Word lit le texte et la mise en page intégrés, puis les reconstruit sous forme de fichier .docx. Les bons convertisseurs préservent les paragraphes, les titres, les listes, les tableaux simples et les images en ligne. Les documents bureautiques ordinaires ressortent parfaitement modifiables.

Pour les PDF numérisés

Vous avez d'abord besoin de l'OCR. PDF en texte avec l'OCR activé vous fournit le texte brut ; pour un document structuré avec mise en forme, utilisez image en Word sur chaque page (ou faites passer le PDF entier). Le résultat ne sera pas identique au scan, mais le texte sera modifiable et la structure préservée.

Là où les convertisseurs se trompent

Les échecs classiques, à peu près dans l'ordre où ils surviennent :

  • Les tableaux deviennent des zones de texte. Les mauvais convertisseurs transforment chaque cellule en élément flottant. Le tableau a l'air correct ; mais vous ne pouvez pas réellement le modifier comme un tableau.
  • Les mises en page multicolonnes s'effondrent. Une newsletter à deux colonnes devient une seule colonne où le texte des deux colonnes s'entremêle maladroitement.
  • Les polices sont remplacées en silence. Si votre PDF utilise une police que Word ne possède pas, vous obtenez quelque chose d'approchant — mais pas identique — et vos sauts de ligne se décalent.
  • Les notes de bas de page se détachent. Le texte de la note se retrouve sous forme de paragraphe isolé au bas de la page, sans plus aucun lien avec son appel.
  • Les en-têtes et pieds de page deviennent du texte courant. Les numéros de page, en-têtes et pieds de page se retrouvent sous forme de paragraphes au milieu du texte.

Ce que fait un bon convertisseur

Le critère, c'est une mise en page reconnaissable, des tableaux modifiables, des listes préservées et des images en ligne qui restent là où vous les avez placées. Le PDF vers Word de Pixoate atteint ce critère pour la plupart des PDF de type bureautique : contrats, rapports, formulaires, lettres. Il s'appuie sur un pipeline sensible à la mise en page qui détecte les grilles de tableaux et les reconstruit en véritables tableaux Word, et non en zones de texte. Les titres conservent leur hiérarchie. Les listes à puces et numérotées sont restituées sous forme de listes, et non de lignes de texte qui ressemblent à des listes.

Dans l'autre sens

Si vous générez un PDF à partir d'un document Word (et que vous voulez qu'il ressemble exactement à ce qu'affiche Word), utilisez Word vers PDF. L'outil effectue un véritable rendu via LibreOffice, de sorte que le résultat correspond à ce que vous obtiendriez en cliquant sur « Enregistrer au format PDF » dans Word — polices intégrées, mise en page préservée, aucune surprise.

D'autres formats à connaître

  • PDF vers HTML lorsque vous voulez une page web. PDF vers HTML conserve les véritables éléments <table> et les titres, si bien que le résultat est un HTML lisible, et non une capture d'écran enveloppée de balises.
  • PDF vers Excel lorsque le PDF est essentiellement composé de tableaux. PDF vers Excel extrait chaque tableau dans sa propre feuille avec des en-têtes figés.
  • PDF vers CSV pour des données de tableaux brutes que vous importerez ailleurs. PDF vers CSV compresse un CSV par tableau dans une archive zip.
  • PDF vers images lorsque vous avez besoin de chaque page sous forme de PNG — par exemple pour une présentation ou un portfolio. PDF vers images effectue le rendu à 200 DPI par défaut.

Quand renoncer à la conversion et simplement envoyer le PDF

Si le destinataire a seulement besoin de lire ou d'imprimer le PDF, ne le convertissez pas. Compressez-le plutôt avec compression PDF et envoyez le PDF directement. La conversion sert lorsque vous devez modifier le document ; sinon, vous ne faites qu'ajouter une étape susceptible de dégrader la fidélité.

Vous aimerez peut-être aussi