OCR

OCR изображений и скриншотов: извлеките текст из любой картинки

Фото меню на другом языке, сканированная налоговая форма, скриншот длинного сообщения об ошибке — OCR превращает всё это в выделяемый, доступный для поиска и редактирования текст. Вот когда какой вид OCR использовать.

Команда Pixoate6 мин чтения

OCR — оптическое распознавание символов — это технология, которая превращает изображение текста в настоящий текст. Раньше она была медленной, склонной к ошибкам и рассчитанной на чистые сканы «чёрным по белому». Современный OCR справляется со скриншотами, фото с телефона, многоязычными меню, рукописными заметками и выцветшими чеками. Интересен не вопрос, использовать ли OCR, а вопрос, какой режим OCR выбрать, ведь неправильный выбор — самая частая причина плохих результатов.

Пять типичных ситуаций и подходящий инструмент для каждой

1. Скриншот, из которого нужен обычный текст

Сообщения об ошибках, фрагменты кода, логи чатов — вам нужен текст, а не форматирование. Воспользуйтесь преобразованием изображения в текст и вставьте результат. Работает на скриншотах в тёмной теме, размытых снимках экранов ноутбуков с телефона — на всём, что можно прочитать.

2. Фотография таблицы

Фото распечатанной таблицы со смартфона, скриншот веб-таблицы, скан печатного отчёта. Не используйте обычный текстовый OCR — столбцы сольются. Используйте изображение в Excel для оформленной таблицы или изображение в CSV для исходных данных. Оба распознают сетку таблицы и сохраняют строки и столбцы.

Если на фото уже чёткий скриншот таблицы, изображение в HTML даёт вам настоящие элементы <table>, которые можно вставить на веб-страницу или преобразовать дальше с помощью таблицы в JSON.

3. Фотография документа с заголовками и структурой

Журнальная статья, печатный отчёт, многостраничный договор. Простой OCR-текст теряет структуру. Используйте изображение в Word или изображение в Markdown. Word даёт вам файл .docx, который можно редактировать дальше; Markdown лучше, если текст пойдёт в вики, README или приложение для заметок.

4. Текст на языке, который вы не понимаете

Фото меню в Токио, вывески в Каире, этикетки в Стокгольме. Не нужно сначала делать OCR, а потом переводить вручную — используйте переводчик изображений, который объединяет OCR и перевод в один шаг. Он выводит исходный текст, перевод и распознаёт около 60 языков.

5. Рукописные заметки

Фото с маркерной доски, страницы дневника, конспекты лекций. Обычный OCR не справляется с прописным почерком — используйте OCR рукописного текста, настроенный на связное, небрежное, по-настоящему человеческое письмо. Лучше всего работает с тёмными чернилами на обычной бумаге; чем выше контраст, тем лучше результат.

Один особый случай: отсканированные PDF, которые должны остаться PDF

Если у вас есть отсканированный PDF, который вы хотите оставить в формате PDF, но сделать доступным для поиска — скажем, отсканированный договор, в котором нужно найти определённый пункт — не конвертируйте его в Word. Воспользуйтесь PDF с возможностью поиска: он добавляет скрытый текстовый слой поверх изображения, поэтому PDF по-прежнему выглядит как скан, но Ctrl-F и поиск по PDF работают. Это также позволяет затем агрессивно сжать слой изображения, не потеряв текст.

Как улучшить результаты OCR: три правила

  1. Контраст — это главное. Чёрные чернила на белом фоне распознаются почти идеально. Выцветшие чернила, пёстрый фон и бумага с узором — всё это мешает. Если вы делаете фото сами, снимайте при ровном рассеянном свете так, чтобы документ заполнял весь кадр.
  2. Ровное лучше кривого. Движки OCR автоматически исправляют небольшой перекос, но снимки под углом (сделанные через стол) теряют точность. Держите камеру параллельно странице.
  3. Разрешение важно до определённого предела. Эквивалент примерно 300 DPI — оптимальное значение: это изображение страницы A4 шириной около 2000 пикселей. Более высокое разрешение только замедляет OCR, не повышая точности.

Специализированный OCR, о существовании которого вы могли не знать

  • Чеки — извлеките продавца, сумму, налог, дату и позиции в виде JSON с помощью извлечения данных из чеков. Создано специально для авансовых отчётов и бухгалтерии.
  • Визитки — создайте готовую к импорту в контакты vCard с помощью сканера визиток. Чтобы стопка карточек с конференции не залёживалась у вас на столе.

OCR — один из самых мощных инструментов в вашем арсенале: пять минут чтения фото могут превратиться в пять секунд. Выберите подходящий для ситуации режим — и результат с первого раза получится чистым и готовым к редактированию.

Вам также может понравиться