RectoPDF
Français
· RectoPDF team

PDF vers Word : quand est-ce que ça préserve vraiment la mise en forme ?

Un regard franc sur la conversion PDF-vers-Word. Ce qui fonctionne, ce qui ne fonctionne pas, et pourquoi un convertisseur « parfait » est mathématiquement impossible.

« PDF vers Word avec 100 % de précision » est la fonctionnalité la plus promise et la moins tenue de l’industrie de la conversion de documents. Tous les outils la disent. Aucun ne la tient. La raison est structurelle, pas technique.

Cet article explique pourquoi, à quoi s’attendre des convertisseurs honnêtes (y compris le nôtre), et les rares cas où la conversion est quasi parfaite.

La discordance fondamentale

Un PDF décrit comment une page apparaît. Un document Word décrit comment le contenu est structuré.

Quand vous écrivez dans Word, vous tapez un titre, appuyez sur Entrée, tapez un paragraphe. Word stocke « Titre 1 : ‘Résultats trimestriels’ » comme un objet sémantique. Lorsque ce document est exporté en PDF, toute la sémantique est aplatie en « placer les glyphes R-é-s-u-l-t-a-t-s à x=72, y=720 en Calibri Gras 18pt ». La structure disparaît — seul le rendu visuel survit.

Convertir en sens inverse, c’est de la rétro-ingénierie. Un convertisseur regarde « glyphe R-é-s-u-l-t-a-t-s à 18pt en haut de la page » et doit deviner : était-ce un titre ? Une phrase mise en relief ? Un titre de document ? Il utilise des heuristiques — taille de police, position, graisse, espace blanc autour — et trouve la bonne réponse la plupart du temps. Mais c’est une supposition, pas une récupération.

Ce que fait notre convertisseur

PDF vers Word est un moteur qui exécute huit phases d’analyse sur un PDF :

  1. Extraction — parcourt le flux de contenu de chaque page, construit une liste d’occurrences de glyphes (texte + police + position) et des XObjects images. Gère ToUnicode CMaps, les encodages WinAnsi/MacRoman/Standard et les différences Adobe Glyph List.
  2. Analyse — regroupe les occurrences de glyphes par ligne de base en lignes, regroupe les lignes en mots par détection d’écart, détecte le barré en repérant les lignes horizontales traversant la mi-hauteur des mots.
  3. Ordre de lecture — trouve les gouttières verticales dans la page, divise les lignes qui traversent les colonnes, lit colonne par colonne.
  4. Sémantique — regroupe les lignes en paragraphes par écart vertical et indentation, détecte les titres par statistiques de taille de police, trouve les marqueurs de listes à puces ou numérotées.
  5. Formes — extrait les graphiques vectoriels (lignes, rectangles, beziers).
  6. Tableaux — regroupe les filets horizontaux, en déduit les colonnes à partir des segments de filets, construit l’appartenance des cellules.
  7. Images — passage direct des JPEG, FlateDecode → PNG, JP2 passé tel quel, CCITTFax encapsulé en TIFF.
  8. Émission DOCX — écrit un vrai .docx avec paragraphes, titres, listes, tableaux et ancres images <w:drawing>.

Quand les huit phases sont d’accord, vous obtenez un document Word propre. Sinon, vous voyez des artefacts.

Ce qui marche bien

  • Rapports à une seule colonne avec une famille de police, des titres clairs et des paragraphes en prose.
  • Tableaux avec bordures visibles.
  • Listes à puces et numérotées avec indentation cohérente.
  • Images en ligne (JPEG et PNG intégrés tels quels).
  • Gras, italique, barré — détectés par segment.

Ce qui marche partiellement

  • Mises en page multi-colonnes — nous détectons 2 et 3 colonnes de manière fiable. Les mises en page mixtes (certaines pages à 1 col, d’autres à 2) fonctionnent généralement.
  • Tableaux sans bordures — nous nous rabattons sur le regroupement par coordonnée x du texte, ce qui est correct dans la plupart des cas mais peut désaligner des tableaux lâches.
  • Scripts mixtes — Latin, grec et cyrillique fonctionnent. L’arabe, le chinois, l’hébreu et autres scripts RTL/CJK ne sont pas encore pris en charge.

Ce qui ne marche pas

  • PDF scannés. Un scan n’est qu’une image de texte. Nous ne faisons pas (encore) d’OCR, donc un rapport scanné se convertit en .docx avec une grande image par page et zéro texte éditable. Utilisez un outil OCR d’abord.
  • Équations. La typographie mathématique en PDF (LaTeX, MathType ou l’éditeur d’équations Word) s’aplatit en glyphes étrangement positionnés. Pas de chemin de récupération structurel.
  • Mises en page flottantes. PDF marketing, affiches et documents « designés » qui utilisent un positionnement absolu sont visuellement corrects mais sémantiquement incohérents. N’attendez pas une version Word propre.

Un test utile

Vous voulez savoir si votre PDF spécifique va bien se convertir ? Regardez-le dans un visualiseur et demandez-vous :

  1. Pouvez-vous copier-coller un paragraphe et obtenir une ligne de texte propre ? Si oui (la plupart des PDF textuels), la conversion sera bonne. Si vous obtenez du charabia ou des substitutions de caractères étranges, le PDF source n’a pas d’info Unicode correcte et aucun convertisseur ne peut corriger ça.
  2. Les tableaux sont-ils dessinés avec des bordures visibles ? Meilleure conversion si oui.
  3. La mise en page est-elle à une ou deux colonnes ? Meilleurs résultats à une ou deux ; trois est faisable ; quatre+ peu fiable.

Dans l’autre sens

Si on vous a demandé « envoie-moi un doc Word, pas un PDF », la réponse simple est de partir de Word et d’utiliser Word vers PDF une fois terminé. PDF-vers-Word est un outil utile, mais c’est un outil d’urgence — on s’en sert parce que quelqu’un nous a envoyé un PDF qu’il faut modifier, pas dans un flux de travail normal.

Note de confidentialité

Tout s’exécute dans votre navigateur. Le moteur se charge une fois (mis en cache ensuite) et traite votre PDF entièrement dans l’onglet. Votre fichier n’est jamais envoyé — pour les documents juridiques et les rapports confidentiels, ça compte plus que tel convertisseur ait 92 % de précision contre 91 %.

Essayez le convertisseur PDF vers Word et voyez ce qu’il donne sur le vôtre.