PDF から Word へ:書式を本当に保てる変換ツールはどれ?
ほとんどのPDFからWordへの変換ツールは、表を崩したり、フォントを乱したり、画像をまるごと抜け落としたりします。本記事では、優れた変換ツールの条件、スキャンしたPDFにOCRが必要な理由、そしてあらゆる種類のPDFへの対処法を解説します。
PDF は、どのデバイスでも同じ見た目になるように設計されています。それが大きな強みであると同時に、編集が厄介な理由でもあります。PDF を Word に変換するとき、ツールにはドキュメントをリバースエンジニアリングする作業、つまりどの文字がどの段落に属するか、表はどこにあるか、見出しはどれか、何が脚注で何がそうでないかを判別する作業が求められます。これをうまくこなす変換ツールもありますが、多くはうまくできません。
ここでは、選び方の簡単なフローチャートと、本当に優れた変換ツールの条件をご紹介します。
まず確認すべきこと。そのPDFは本物のPDFなのか、それともスキャン画像なのか?
PDFリーダー内でマウスでテキストを選択できれば、それは実際のテキストを含む本物のPDFです。選択できない場合、つまりテキストが画像のように振る舞う場合は、たとえそう見えなくてもスキャン文書です。変換の手順はまったく異なります。
本来のPDFの場合
PDFからWordは、埋め込まれたテキストとレイアウトを読み取り、それを.docxとして再構築します。優れたコンバーターは、段落、見出し、リスト、単純な表、インライン画像を保持します。ごく一般的なオフィス文書なら、きれいに編集可能な状態で出力されます。
スキャンしたPDFの場合
まずOCRが必要です。OCRを有効にしたPDFからテキストでは生のテキストが得られます。書式付きの構造化された文書がほしい場合は、各ページに画像からWordを使ってください(またはPDF全体を通して処理します)。出力はスキャンとまったく同じ見た目にはなりませんが、テキストは編集可能で、構造は保たれます。
変換ツールがやりがちな失敗
典型的な失敗を、起こりやすい順におおよそ並べると次のとおりです。
- 表がテキストボックスになります。 質の悪いコンバーターは各セルをフローティング要素に変えてしまいます。見た目は表でも、実際には表として編集できません。
- 段組みレイアウトが崩れます。 2段組みのニュースレターは、両方の段のテキストが不自然に入り混じった1段組みになってしまいます。
- フォントは黙って置き換えられます。 PDFがWordにないフォントを使っている場合、近いものに置き換わりますが同一ではなく、改行位置がずれてしまいます。
- 脚注が切り離されます。 脚注のテキストはページ下部の宙ぶらりんな段落となり、もはやマーカーと結びついていません。
- ヘッダーとフッターが本文になります。 ページ番号、ヘッダー、フッターが本文の途中に段落として紛れ込みます。
優れた変換ツールが行うこと
その基準とは、認識できるレイアウト、編集可能な表、保持されたリスト、そして配置した場所にとどまるインライン画像です。PixoateのPDFからWordへは、契約書、レポート、フォーム、手紙といったほとんどのオフィス系PDFでその基準を満たします。表のグリッドを検出し、テキストボックスではなくネイティブのWordの表として再構築する、レイアウトを認識するパイプラインを採用しています。見出しは階層を保ちます。箇条書きや番号付きリストは、リストのように見えるだけのテキスト行ではなく、本物のリストとして変換されます。
逆方向の変換
Word文書からPDFを生成する場合(そしてWordとまったく同じ見た目にしたい場合)は、WordからPDFを使いましょう。実際のLibreOfficeでレンダリングするため、Wordで「PDFとして保存」をクリックしたときと同じ出力になります。フォントは埋め込まれ、レイアウトは保持され、意外な結果になりません。
知っておきたいその他のフォーマット
- PDFからHTMLは、ウェブページが欲しい場合に使います。PDFからHTMLは本物の
<table>要素や見出しを保持するため、出力はマークアップで包んだスクリーンショットではなく、読みやすいHTMLになります。 - PDFからExcelは、PDFがほぼ表で構成されている場合に使います。PDFからExcelは各表を、見出し行を固定した個別のシートに抽出します。
- PDFからCSVは、他の場所にインポートする生の表データに使います。PDFからCSVは表ごとに1つのCSVをzipにまとめます。
- PDFから画像は、各ページをPNGとして必要とする場合に使います。例えばスライドやポートフォリオ向けです。PDFから画像はデフォルトで200 DPIでレンダリングします。
変換をあきらめて、いっそPDFのまま送るべきとき
受け取る相手がPDFを閲覧または印刷するだけなら、変換は不要です。代わりにPDF圧縮で圧縮し、PDFをそのまま送りましょう。変換は編集が必要なときのためのもので、編集しないなら、品質を損ないかねない工程を増やすだけです。
Pixoate