PDF

PDF в Word: какой инструмент конвертации действительно сохраняет ваше форматирование?

Большинство конвертеров PDF в Word разрушают таблицы, путают шрифты или вовсе пропускают изображения. Вот что отличает хороший конвертер, почему отсканированным PDF нужен OCR и как справиться с PDF любого типа.

Команда Pixoate8 мин чтения

PDF был создан, чтобы выглядеть одинаково на каждом устройстве. В этом его огромная сила и причина, по которой его так раздражает редактировать. Когда вы преобразуете PDF в Word, вы просите инструмент провести обратную разработку документа — понять, какие символы относятся к какому абзацу, где находятся таблицы, что является заголовками, а что — сноской. Некоторые конвертеры справляются с этим хорошо. Большинство — плохо.

Вот краткое дерево решений и то, что делает конвертер действительно хорошим.

Первый вопрос: это настоящий PDF или скан?

Если вы можете выделить текст мышью в программе для чтения PDF, это настоящий PDF с реальным текстовым содержимым. Если нет — если текст ведёт себя как изображение — значит, это скан, даже если он так не выглядит. Способ конвертации будет совершенно иным.

Для настоящих PDF

PDF в Word считывает встроенный текст и макет, а затем пересобирает их в .docx. Хорошие конвертеры сохраняют абзацы, заголовки, списки, простые таблицы и встроенные изображения. Обычные офисные документы получаются аккуратно редактируемыми.

Для отсканированных PDF

Сначала нужен OCR. PDF в текст с включённым OCR даёт вам исходный текст; для структурированного документа с форматированием используйте изображение в Word на каждой странице (или пропустите весь PDF целиком). Результат не будет выглядеть идентично скану, но текст будет редактируемым, а структура — сохранённой.

В чём ошибаются конвертеры

Классические сбои, примерно в том порядке, в котором они случаются:

  • Таблицы превращаются в текстовые блоки. Плохие конвертеры делают из каждой ячейки плавающий элемент. Таблица выглядит правильно, но редактировать её как таблицу не получится.
  • Многоколоночная вёрстка разваливается. Двухколоночная рассылка превращается в одну колонку, где текст обеих колонок неуклюже перемешан.
  • Шрифты подменяются незаметно. Если в вашем PDF используется шрифт, которого нет в Word, вы получите похожий — но не тот же самый, — и разбивка строк сместится.
  • Сноски отрываются. Текст сноски превращается в отдельный абзац внизу страницы, больше не связанный со своим маркером.
  • Колонтитулы становятся основным текстом. Номера страниц, верхние и нижние колонтитулы попадают в текст как абзацы посреди потока.

Что делает хороший конвертер

Планка — это узнаваемый макет, редактируемые таблицы, сохранённые списки и встроенные изображения, которые остаются на своих местах. PDF в Word от Pixoate берёт эту планку для большинства офисных PDF: договоров, отчётов, форм, писем. Он использует конвейер с учётом макета, который распознаёт сетки таблиц и воссоздаёт их как настоящие таблицы Word, а не текстовые поля. Заголовки сохраняют свою иерархию. Маркированные и нумерованные списки переносятся как списки, а не строки текста, лишь похожие на списки.

В обратную сторону

Если вы создаёте PDF из документа Word (и хотите, чтобы он выглядел точно так же, как в Word), используйте Word в PDF. Инструмент выполняет настоящий рендеринг через LibreOffice, поэтому результат совпадает с тем, что вы получили бы, нажав «Сохранить как PDF» в Word — со встроенными шрифтами, сохранённой вёрсткой и без сюрпризов.

Другие форматы, о которых стоит знать

  • PDF в HTML, когда вам нужна веб-страница. PDF в HTML сохраняет настоящие элементы <table> и заголовки, поэтому на выходе получается читаемый HTML, а не скриншот, обёрнутый в разметку.
  • PDF в Excel, когда PDF состоит в основном из таблиц. PDF в Excel извлекает каждую таблицу на отдельный лист с закреплёнными заголовками.
  • PDF в CSV для сырых табличных данных, которые вы импортируете в другое место. PDF в CSV упаковывает в архив по одному CSV на каждую таблицу.
  • PDF в изображения, когда нужна каждая страница в виде PNG — например, для презентации или портфолио. PDF в изображения по умолчанию рендерит с разрешением 200 DPI.

Когда стоит отказаться от конвертации и просто отправить PDF

Если получателю нужно лишь прочитать или распечатать PDF, не конвертируйте его. Вместо этого сожмите его с помощью сжатия PDF и отправьте PDF напрямую. Конвертация нужна, когда требуется редактирование; если оно не нужно, вы лишь добавляете лишний шаг, который может ухудшить качество.

Вам также может понравиться