RectoPDF
العربية
· RectoPDF team

PDF إلى Word: متى يحفظ التنسيق فعلًا؟

نظرة صريحة على التحويل من PDF إلى Word. ما يعمل، وما لا يعمل، ولماذا التحويل «المثالي» مستحيل رياضيًا.

«PDF إلى Word بدقة 100%» هي الميزة الأكثر وعدًا والأقل تحقيقًا في صناعة تحويل المستندات. تقولها كل أداة. لا تعنيها أي منها. السبب بنيوي، وليس تقنيًا.

هذا المقال يشرح لماذا، وماذا تتوقع من المحوّلات الصادقة (بما فيها محوّلنا)، والحالات النادرة حيث التحويل فعلًا قريب من المثالية.

التعارض الجوهري

PDF يصف كيف تبدو الصفحة. مستند Word يصف كيف يُهيكَل المحتوى.

عندما تكتب في Word، تكتب عنوانًا، تضغط Enter، تكتب فقرة. يخزّن Word «العنوان 1: ‘النتائج الفصلية’» ككائن دلالي. عندما يُصدَّر هذا المستند إلى PDF، تُسطَّح كل الدلالات إلى «ضع الحروف ن-ت-ا-ئ-ج عند x=72، y=720 بخط Calibri عريض 18pt». البنية تختفي — يبقى التصيير البصري فقط.

التحويل في الاتجاه المعاكس هندسة عكسية. ينظر المحوّل إلى «حروف ن-ت-ا-ئ-ج بحجم 18pt في أعلى الصفحة» ويجب أن يخمّن: هل كان عنوانًا؟ عبارة مؤكدة؟ عنوان مستند؟ يستخدم استدلالات — حجم الخط، الموضع، سمك الخط، الفراغ حوله — ويصيب الإجابة الصحيحة في معظم الأوقات. لكن إنه تخمين، ليس استرداد.

ما يفعله محوّلنا

PDF إلى Word محرّك ينفّذ ثماني مراحل تحليل على PDF:

  1. الاستخراج — يمشي عبر تدفق محتوى كل صفحة، يبني قائمة من تشغيلات الحروف (نص + خط + موضع) و XObjects صور. يتعامل مع ToUnicode CMaps، وترميزات WinAnsi/MacRoman/Standard، وفروقات Adobe Glyph List.
  2. التحليل — يجمّع تشغيلات الحروف حسب خط الأساس في أسطر، يجمّع الأسطر في كلمات بكشف الفجوات، يكشف الخط الذي يتوسط بإيجاد الخطوط الأفقية عبر منتصف ارتفاع الكلمة.
  3. ترتيب القراءة — يجد المسافات العمودية في الصفحة، يقسم الأسطر التي تعبر الأعمدة، يقرأ عمودًا تلو الآخر.
  4. الدلالة — يجمّع الأسطر في فقرات حسب الفجوة الرأسية والإزاحة، يكشف العناوين بإحصاءات حجم الخط، يجد علامات القوائم النقطية أو المرقّمة.
  5. الأشكال — يستخرج الرسوم المتجهة (خطوط، مستطيلات، Béziers).
  6. الجداول — يجمّع الخطوط الأفقية، يستنتج الأعمدة من قطع الخطوط، يبني عضوية الخلايا.
  7. الصور — تمرير JPEG، FlateDecode → PNG، تمرير JP2، CCITTFax مغلّف في TIFF.
  8. إصدار DOCX — يكتب .docx حقيقي بفقرات وعناوين وقوائم وجداول وارتساءات صور <w:drawing>.

عندما تتوافق الثماني مراحل، تحصل على مستند Word نظيف. عندما لا تتوافق، ترى عيوبًا واضحة.

ما يعمل جيدًا

  • التقارير ذات العمود الواحد بعائلة خط واحدة، عناوين واضحة، وفقرات نثرية.
  • الجداول ذات الحدود المرئية.
  • القوائم النقطية والمرقّمة بإزاحة متناسقة.
  • الصور المضمّنة (JPEG و PNG يُضمَّنان كما هما).
  • العريض، المائل، يتوسطه خط — يُكتشف لكل تشغيل.

ما يعمل جزئيًا

  • التخطيطات متعددة الأعمدة — نكتشف عمودين و ثلاثة بشكل موثوق. التخطيطات المختلطة (بعض الصفحات بعمود، أخرى بعمودين) عادة تعمل.
  • الجداول بدون حدود — نلجأ لتجميع تشغيلات النص حسب الإحداثي x، وهو صحيح في معظم الحالات لكن قد يحاذي خطأ جداول فضفاضة.
  • الكتابات المختلطة — اللاتيني واليوناني والسيريلي تعمل. العربية والصينية والعبرية وغيرها من كتابات RTL/CJK غير مدعومة بعد.

ما لا يعمل

  • ملفات PDF الممسوحة. المسح مجرد صورة لنص. لا نشغّل OCR (بعد)، لذا فإن تقريرًا ممسوحًا يُحوَّل إلى DOCX بصورة واحدة كبيرة لكل صفحة وصفر نص قابل للتحرير. استخدم أداة OCR أولًا.
  • المعادلات. التنضيد الرياضي في PDF (سواء من LaTeX أو MathType أو محرر معادلات Word) يُسطَّح إلى تشغيلات حروف برموز موضوعة بشكل غريب. لا مسار استرداد بنيوي.
  • التخطيطات العائمة. ملفات PDF تسويقية والملصقات والمستندات «المصمَّمة» التي تستخدم تموضعًا مطلقًا تبدو جيدة بصريًا لكنها غير متماسكة دلاليًا. لا تتوقع نسخة Word نظيفة.

اختبار مفيد

تريد معرفة هل PDF لديك سيتحوّل جيدًا؟ انظر إليه في عارض واسأل:

  1. هل يمكنك نسخ ولصق فقرة لتظهر كسطر نص نظيف؟ إذا نعم (معظم ملفات PDF النصية)، فسيكون التحويل جيدًا. إذا حصلت على رطانة أو استبدالات حروف غريبة، فالمصدر لا يحتوي على معلومات Unicode صحيحة ولا محوّل يمكنه إصلاح ذلك.
  2. هل الجداول مرسومة بحدود مرئية؟ تحويل أفضل إذا نعم.
  3. هل التخطيط عمود أو عمودان؟ أفضل النتائج بعمود أو عمودين ؛ ثلاثة ممكن ؛ أربعة+ غير موثوق.

الاتجاه المعاكس

إذا طُلب منك «أرسل لي ملف Word، ليس PDF»، الإجابة الأبسط هي أن تبدأ بـ Word وتستخدم Word إلى PDF عندما تنتهي. PDF-إلى-Word أداة مفيدة، لكنها أداة طوارئ — تلجأ إليها لأن شخصًا أرسل لك PDF تحتاج تحريره، ليس كجزء من تدفق عمل عادي.

ملاحظة الخصوصية

كل شيء يعمل في متصفحك. المحرّك يُحمَّل مرة (يُخزَّن مؤقتًا بعدها) ويعالج PDF بالكامل في اللسان. ملفك لا يُرفع أبدًا — للمستندات القانونية والتقارير السرية، هذا يهم أكثر من أي محوّل يحقق دقة 92% مقابل 91%.

جرّب محوّل PDF إلى Word وانظر ماذا يفعل على ملفك.