PDF 转 Word:哪款转换工具真正能保留你的排版格式?
大多数 PDF 转 Word 的工具会破坏你的表格、弄乱字体,或者干脆漏掉图片。本文将讲解什么才算好的转换工具、为什么扫描版 PDF 需要 OCR,以及如何应对各种类型的 PDF。
PDF 的设计初衷就是在每台设备上呈现完全相同的外观。这是它最大的优势,也是它难以编辑的原因。当你将 PDF 转换为 Word 时,你实际上是在要求一款工具对文档进行逆向解析——判断哪些字符属于哪个段落、表格在哪里、哪些是标题、什么是脚注、什么不是。有些转换工具做得很好,大多数则做得很糟糕。
这里有一份快速决策指南,以及一个真正好用的转换器应具备的条件。
首先要问:这份 PDF 是真正的 PDF,还是扫描件?
如果你能在 PDF 阅读器里用鼠标选中文字,那就是一份含有真实文本内容的 PDF。如果选不中——文字表现得像图片一样——那它就是扫描件,哪怕看起来不像。两者的转换方式完全不同。
对于真正的 PDF
PDF 转 Word 会读取嵌入的文本和版式,然后将其重建为 .docx。优秀的转换器会保留段落、标题、列表、简单表格和内嵌图片。常见的办公文档转换后都能干净地编辑。
对于扫描版 PDF
你需要先进行 OCR。启用 OCR 的 PDF 转文本 会为你提供纯文本;若要得到带格式的结构化文档,请对每一页使用 图片转 Word(或将整份 PDF 一并处理)。输出结果不会与扫描件完全一致,但文本可编辑,且结构得以保留。
转换器常出的错
那些典型的失败情形,大致按发生顺序排列:
- **表格会变成文本框。**糟糕的转换器会把每个单元格都变成浮动元素。表格看起来没问题,但你实际上无法把它当作表格来编辑。
- **多栏排版会塌陷。**双栏的简报会变成单栏,两栏的文字别扭地交错在一起。
- **字体会被悄悄替换。**如果你的 PDF 使用了 Word 没有的字体,你会得到一个相近——但不一样——的字体,换行位置也会随之偏移。
- **脚注会脱离。**脚注文字最终会变成页面底部一段孤立的文字,不再与标记相关联。
- **页眉和页脚会变成正文。**页码、页眉和页脚会以段落形式混入正文流中。
优秀的转换器会做什么
标准是:版面清晰可辨、表格可编辑、列表得以保留、内嵌图片停留在你放置的位置。对于大多数办公类 PDF——合同、报告、表单、信函——Pixoate 的 PDF 转 Word 都能达到这一标准。它采用版面感知的处理流程,能检测表格网格并将其重建为原生 Word 表格,而非文本框。标题保持其层级结构。项目符号列表和编号列表会以真正的列表形式呈现,而不是看起来像列表的几行文字。
反向操作
如果你要从 Word 文档生成 PDF(并希望它的外观与 Word 中完全一致),请使用 Word 转 PDF。它会经过真正的 LibreOffice 渲染流程,因此输出效果与你在 Word 中点击「另存为 PDF」得到的一模一样——字体内嵌、版式保留,毫无意外。
其他值得了解的格式
- PDF 转 HTML适用于想要网页的情况。PDF 转 HTML会保留真正的
<table>元素和标题,因此输出的是可读的 HTML,而不是包在标记里的截图。 - PDF 转 Excel适用于 PDF 大部分是表格的情况。PDF 转 Excel会将每张表格提取到独立的工作表中,并冻结表头。
- PDF 转 CSV适用于需要导入到别处的原始表格数据。PDF 转 CSV会为每张表格生成一个 CSV 并打包成压缩包。
- PDF 转图片适用于需要将每一页保存为 PNG 的情况——比如用于幻灯片或作品集。PDF 转图片默认以 200 DPI 渲染。
何时该放弃转换,直接发送 PDF
如果接收方只需要阅读或打印这份 PDF,就不要转换它。改用 PDF 压缩 压缩后直接发送 PDF。转换是为了便于编辑;如果你不需要编辑,转换只会多出一个可能损失保真度的步骤。
Pixoate