PDF

PDF 转 Word:哪款转换工具真正能保留你的排版格式?

大多数 PDF 转 Word 的工具会破坏你的表格、弄乱字体,或者干脆漏掉图片。本文将讲解什么才算好的转换工具、为什么扫描版 PDF 需要 OCR,以及如何应对各种类型的 PDF。

Pixoate 团队8 分钟阅读

PDF 的设计初衷就是在每台设备上呈现完全相同的外观。这是它最大的优势,也是它难以编辑的原因。当你将 PDF 转换为 Word 时,你实际上是在要求一款工具对文档进行逆向解析——判断哪些字符属于哪个段落、表格在哪里、哪些是标题、什么是脚注、什么不是。有些转换工具做得很好,大多数则做得很糟糕。

这里有一份快速决策指南,以及一个真正好用的转换器应具备的条件。

首先要问:这份 PDF 是真正的 PDF,还是扫描件?

如果你能在 PDF 阅读器里用鼠标选中文字,那就是一份含有真实文本内容的 PDF。如果选不中——文字表现得像图片一样——那它就是扫描件,哪怕看起来不像。两者的转换方式完全不同。

对于真正的 PDF

PDF 转 Word 会读取嵌入的文本和版式,然后将其重建为 .docx。优秀的转换器会保留段落、标题、列表、简单表格和内嵌图片。常见的办公文档转换后都能干净地编辑。

对于扫描版 PDF

你需要先进行 OCR。启用 OCR 的 PDF 转文本 会为你提供纯文本;若要得到带格式的结构化文档,请对每一页使用 图片转 Word(或将整份 PDF 一并处理)。输出结果不会与扫描件完全一致,但文本可编辑,且结构得以保留。

转换器常出的错

那些典型的失败情形,大致按发生顺序排列:

  • **表格会变成文本框。**糟糕的转换器会把每个单元格都变成浮动元素。表格看起来没问题,但你实际上无法把它当作表格来编辑。
  • **多栏排版会塌陷。**双栏的简报会变成单栏,两栏的文字别扭地交错在一起。
  • **字体会被悄悄替换。**如果你的 PDF 使用了 Word 没有的字体,你会得到一个相近——但不一样——的字体,换行位置也会随之偏移。
  • **脚注会脱离。**脚注文字最终会变成页面底部一段孤立的文字,不再与标记相关联。
  • **页眉和页脚会变成正文。**页码、页眉和页脚会以段落形式混入正文流中。

优秀的转换器会做什么

标准是:版面清晰可辨、表格可编辑、列表得以保留、内嵌图片停留在你放置的位置。对于大多数办公类 PDF——合同、报告、表单、信函——Pixoate 的 PDF 转 Word 都能达到这一标准。它采用版面感知的处理流程,能检测表格网格并将其重建为原生 Word 表格,而非文本框。标题保持其层级结构。项目符号列表和编号列表会以真正的列表形式呈现,而不是看起来像列表的几行文字。

反向操作

如果你要从 Word 文档生成 PDF(并希望它的外观与 Word 中完全一致),请使用 Word 转 PDF。它会经过真正的 LibreOffice 渲染流程,因此输出效果与你在 Word 中点击「另存为 PDF」得到的一模一样——字体内嵌、版式保留,毫无意外。

其他值得了解的格式

  • PDF 转 HTML适用于想要网页的情况。PDF 转 HTML会保留真正的 <table> 元素和标题,因此输出的是可读的 HTML,而不是包在标记里的截图。
  • PDF 转 Excel适用于 PDF 大部分是表格的情况。PDF 转 Excel会将每张表格提取到独立的工作表中,并冻结表头。
  • PDF 转 CSV适用于需要导入到别处的原始表格数据。PDF 转 CSV会为每张表格生成一个 CSV 并打包成压缩包。
  • PDF 转图片适用于需要将每一页保存为 PNG 的情况——比如用于幻灯片或作品集。PDF 转图片默认以 200 DPI 渲染。

何时该放弃转换,直接发送 PDF

如果接收方只需要阅读或打印这份 PDF,就不要转换它。改用 PDF 压缩 压缩后直接发送 PDF。转换是为了便于编辑;如果你不需要编辑,转换只会多出一个可能损失保真度的步骤。

你可能还喜欢