PDF в Word: какой инструмент конвертации действительно сохраняет ваше форматирование?
Большинство конвертеров PDF в Word разрушают таблицы, путают шрифты или вовсе пропускают изображения. Вот что отличает хороший конвертер, почему отсканированным PDF нужен OCR и как справиться с PDF любого типа.
PDF был создан, чтобы выглядеть одинаково на каждом устройстве. В этом его огромная сила и причина, по которой его так раздражает редактировать. Когда вы преобразуете PDF в Word, вы просите инструмент провести обратную разработку документа — понять, какие символы относятся к какому абзацу, где находятся таблицы, что является заголовками, а что — сноской. Некоторые конвертеры справляются с этим хорошо. Большинство — плохо.
Вот краткое дерево решений и то, что делает конвертер действительно хорошим.
Первый вопрос: это настоящий PDF или скан?
Если вы можете выделить текст мышью в программе для чтения PDF, это настоящий PDF с реальным текстовым содержимым. Если нет — если текст ведёт себя как изображение — значит, это скан, даже если он так не выглядит. Способ конвертации будет совершенно иным.
Для настоящих PDF
PDF в Word считывает встроенный текст и макет, а затем пересобирает их в .docx. Хорошие конвертеры сохраняют абзацы, заголовки, списки, простые таблицы и встроенные изображения. Обычные офисные документы получаются аккуратно редактируемыми.
Для отсканированных PDF
Сначала нужен OCR. PDF в текст с включённым OCR даёт вам исходный текст; для структурированного документа с форматированием используйте изображение в Word на каждой странице (или пропустите весь PDF целиком). Результат не будет выглядеть идентично скану, но текст будет редактируемым, а структура — сохранённой.
В чём ошибаются конвертеры
Классические сбои, примерно в том порядке, в котором они случаются:
- Таблицы превращаются в текстовые блоки. Плохие конвертеры делают из каждой ячейки плавающий элемент. Таблица выглядит правильно, но редактировать её как таблицу не получится.
- Многоколоночная вёрстка разваливается. Двухколоночная рассылка превращается в одну колонку, где текст обеих колонок неуклюже перемешан.
- Шрифты подменяются незаметно. Если в вашем PDF используется шрифт, которого нет в Word, вы получите похожий — но не тот же самый, — и разбивка строк сместится.
- Сноски отрываются. Текст сноски превращается в отдельный абзац внизу страницы, больше не связанный со своим маркером.
- Колонтитулы становятся основным текстом. Номера страниц, верхние и нижние колонтитулы попадают в текст как абзацы посреди потока.
Что делает хороший конвертер
Планка — это узнаваемый макет, редактируемые таблицы, сохранённые списки и встроенные изображения, которые остаются на своих местах. PDF в Word от Pixoate берёт эту планку для большинства офисных PDF: договоров, отчётов, форм, писем. Он использует конвейер с учётом макета, который распознаёт сетки таблиц и воссоздаёт их как настоящие таблицы Word, а не текстовые поля. Заголовки сохраняют свою иерархию. Маркированные и нумерованные списки переносятся как списки, а не строки текста, лишь похожие на списки.
В обратную сторону
Если вы создаёте PDF из документа Word (и хотите, чтобы он выглядел точно так же, как в Word), используйте Word в PDF. Инструмент выполняет настоящий рендеринг через LibreOffice, поэтому результат совпадает с тем, что вы получили бы, нажав «Сохранить как PDF» в Word — со встроенными шрифтами, сохранённой вёрсткой и без сюрпризов.
Другие форматы, о которых стоит знать
- PDF в HTML, когда вам нужна веб-страница. PDF в HTML сохраняет настоящие элементы
<table>и заголовки, поэтому на выходе получается читаемый HTML, а не скриншот, обёрнутый в разметку. - PDF в Excel, когда PDF состоит в основном из таблиц. PDF в Excel извлекает каждую таблицу на отдельный лист с закреплёнными заголовками.
- PDF в CSV для сырых табличных данных, которые вы импортируете в другое место. PDF в CSV упаковывает в архив по одному CSV на каждую таблицу.
- PDF в изображения, когда нужна каждая страница в виде PNG — например, для презентации или портфолио. PDF в изображения по умолчанию рендерит с разрешением 200 DPI.
Когда стоит отказаться от конвертации и просто отправить PDF
Если получателю нужно лишь прочитать или распечатать PDF, не конвертируйте его. Вместо этого сожмите его с помощью сжатия PDF и отправьте PDF напрямую. Конвертация нужна, когда требуется редактирование; если оно не нужно, вы лишь добавляете лишний шаг, который может ухудшить качество.
Pixoate