PDF

PDF から Word へ:書式を本当に保てる変換ツールはどれ?

ほとんどのPDFからWordへの変換ツールは、表を崩したり、フォントを乱したり、画像をまるごと抜け落としたりします。本記事では、優れた変換ツールの条件、スキャンしたPDFにOCRが必要な理由、そしてあらゆる種類のPDFへの対処法を解説します。

Pixoateチーム8 分で読める

PDF は、どのデバイスでも同じ見た目になるように設計されています。それが大きな強みであると同時に、編集が厄介な理由でもあります。PDF を Word に変換するとき、ツールにはドキュメントをリバースエンジニアリングする作業、つまりどの文字がどの段落に属するか、表はどこにあるか、見出しはどれか、何が脚注で何がそうでないかを判別する作業が求められます。これをうまくこなす変換ツールもありますが、多くはうまくできません。

ここでは、選び方の簡単なフローチャートと、本当に優れた変換ツールの条件をご紹介します。

まず確認すべきこと。そのPDFは本物のPDFなのか、それともスキャン画像なのか?

PDFリーダー内でマウスでテキストを選択できれば、それは実際のテキストを含む本物のPDFです。選択できない場合、つまりテキストが画像のように振る舞う場合は、たとえそう見えなくてもスキャン文書です。変換の手順はまったく異なります。

本来のPDFの場合

PDFからWordは、埋め込まれたテキストとレイアウトを読み取り、それを.docxとして再構築します。優れたコンバーターは、段落、見出し、リスト、単純な表、インライン画像を保持します。ごく一般的なオフィス文書なら、きれいに編集可能な状態で出力されます。

スキャンしたPDFの場合

まずOCRが必要です。OCRを有効にしたPDFからテキストでは生のテキストが得られます。書式付きの構造化された文書がほしい場合は、各ページに画像からWordを使ってください(またはPDF全体を通して処理します)。出力はスキャンとまったく同じ見た目にはなりませんが、テキストは編集可能で、構造は保たれます。

変換ツールがやりがちな失敗

典型的な失敗を、起こりやすい順におおよそ並べると次のとおりです。

  • 表がテキストボックスになります。 質の悪いコンバーターは各セルをフローティング要素に変えてしまいます。見た目は表でも、実際には表として編集できません。
  • 段組みレイアウトが崩れます。 2段組みのニュースレターは、両方の段のテキストが不自然に入り混じった1段組みになってしまいます。
  • フォントは黙って置き換えられます。 PDFがWordにないフォントを使っている場合、近いものに置き換わりますが同一ではなく、改行位置がずれてしまいます。
  • 脚注が切り離されます。 脚注のテキストはページ下部の宙ぶらりんな段落となり、もはやマーカーと結びついていません。
  • ヘッダーとフッターが本文になります。 ページ番号、ヘッダー、フッターが本文の途中に段落として紛れ込みます。

優れた変換ツールが行うこと

その基準とは、認識できるレイアウト、編集可能な表、保持されたリスト、そして配置した場所にとどまるインライン画像です。PixoateのPDFからWordへは、契約書、レポート、フォーム、手紙といったほとんどのオフィス系PDFでその基準を満たします。表のグリッドを検出し、テキストボックスではなくネイティブのWordの表として再構築する、レイアウトを認識するパイプラインを採用しています。見出しは階層を保ちます。箇条書きや番号付きリストは、リストのように見えるだけのテキスト行ではなく、本物のリストとして変換されます。

逆方向の変換

Word文書からPDFを生成する場合(そしてWordとまったく同じ見た目にしたい場合)は、WordからPDFを使いましょう。実際のLibreOfficeでレンダリングするため、Wordで「PDFとして保存」をクリックしたときと同じ出力になります。フォントは埋め込まれ、レイアウトは保持され、意外な結果になりません。

知っておきたいその他のフォーマット

  • PDFからHTMLは、ウェブページが欲しい場合に使います。PDFからHTMLは本物の<table>要素や見出しを保持するため、出力はマークアップで包んだスクリーンショットではなく、読みやすいHTMLになります。
  • PDFからExcelは、PDFがほぼ表で構成されている場合に使います。PDFからExcelは各表を、見出し行を固定した個別のシートに抽出します。
  • PDFからCSVは、他の場所にインポートする生の表データに使います。PDFからCSVは表ごとに1つのCSVをzipにまとめます。
  • PDFから画像は、各ページをPNGとして必要とする場合に使います。例えばスライドやポートフォリオ向けです。PDFから画像はデフォルトで200 DPIでレンダリングします。

変換をあきらめて、いっそPDFのまま送るべきとき

受け取る相手がPDFを閲覧または印刷するだけなら、変換は不要です。代わりにPDF圧縮で圧縮し、PDFをそのまま送りましょう。変換は編集が必要なときのためのもので、編集しないなら、品質を損ないかねない工程を増やすだけです。

こちらもおすすめ