OCR изображений и скриншотов: извлеките текст из любой картинки
Фото меню на другом языке, сканированная налоговая форма, скриншот длинного сообщения об ошибке — OCR превращает всё это в выделяемый, доступный для поиска и редактирования текст. Вот когда какой вид OCR использовать.
OCR — оптическое распознавание символов — это технология, которая превращает изображение текста в настоящий текст. Раньше она была медленной, склонной к ошибкам и рассчитанной на чистые сканы «чёрным по белому». Современный OCR справляется со скриншотами, фото с телефона, многоязычными меню, рукописными заметками и выцветшими чеками. Интересен не вопрос, использовать ли OCR, а вопрос, какой режим OCR выбрать, ведь неправильный выбор — самая частая причина плохих результатов.
Пять типичных ситуаций и подходящий инструмент для каждой
1. Скриншот, из которого нужен обычный текст
Сообщения об ошибках, фрагменты кода, логи чатов — вам нужен текст, а не форматирование. Воспользуйтесь преобразованием изображения в текст и вставьте результат. Работает на скриншотах в тёмной теме, размытых снимках экранов ноутбуков с телефона — на всём, что можно прочитать.
2. Фотография таблицы
Фото распечатанной таблицы со смартфона, скриншот веб-таблицы, скан печатного отчёта. Не используйте обычный текстовый OCR — столбцы сольются. Используйте изображение в Excel для оформленной таблицы или изображение в CSV для исходных данных. Оба распознают сетку таблицы и сохраняют строки и столбцы.
Если на фото уже чёткий скриншот таблицы, изображение в HTML даёт вам настоящие элементы <table>, которые можно вставить на веб-страницу или преобразовать дальше с помощью таблицы в JSON.
3. Фотография документа с заголовками и структурой
Журнальная статья, печатный отчёт, многостраничный договор. Простой OCR-текст теряет структуру. Используйте изображение в Word или изображение в Markdown. Word даёт вам файл .docx, который можно редактировать дальше; Markdown лучше, если текст пойдёт в вики, README или приложение для заметок.
4. Текст на языке, который вы не понимаете
Фото меню в Токио, вывески в Каире, этикетки в Стокгольме. Не нужно сначала делать OCR, а потом переводить вручную — используйте переводчик изображений, который объединяет OCR и перевод в один шаг. Он выводит исходный текст, перевод и распознаёт около 60 языков.
5. Рукописные заметки
Фото с маркерной доски, страницы дневника, конспекты лекций. Обычный OCR не справляется с прописным почерком — используйте OCR рукописного текста, настроенный на связное, небрежное, по-настоящему человеческое письмо. Лучше всего работает с тёмными чернилами на обычной бумаге; чем выше контраст, тем лучше результат.
Один особый случай: отсканированные PDF, которые должны остаться PDF
Если у вас есть отсканированный PDF, который вы хотите оставить в формате PDF, но сделать доступным для поиска — скажем, отсканированный договор, в котором нужно найти определённый пункт — не конвертируйте его в Word. Воспользуйтесь PDF с возможностью поиска: он добавляет скрытый текстовый слой поверх изображения, поэтому PDF по-прежнему выглядит как скан, но Ctrl-F и поиск по PDF работают. Это также позволяет затем агрессивно сжать слой изображения, не потеряв текст.
Как улучшить результаты OCR: три правила
- Контраст — это главное. Чёрные чернила на белом фоне распознаются почти идеально. Выцветшие чернила, пёстрый фон и бумага с узором — всё это мешает. Если вы делаете фото сами, снимайте при ровном рассеянном свете так, чтобы документ заполнял весь кадр.
- Ровное лучше кривого. Движки OCR автоматически исправляют небольшой перекос, но снимки под углом (сделанные через стол) теряют точность. Держите камеру параллельно странице.
- Разрешение важно до определённого предела. Эквивалент примерно 300 DPI — оптимальное значение: это изображение страницы A4 шириной около 2000 пикселей. Более высокое разрешение только замедляет OCR, не повышая точности.
Специализированный OCR, о существовании которого вы могли не знать
- Чеки — извлеките продавца, сумму, налог, дату и позиции в виде JSON с помощью извлечения данных из чеков. Создано специально для авансовых отчётов и бухгалтерии.
- Визитки — создайте готовую к импорту в контакты vCard с помощью сканера визиток. Чтобы стопка карточек с конференции не залёживалась у вас на столе.
OCR — один из самых мощных инструментов в вашем арсенале: пять минут чтения фото могут превратиться в пять секунд. Выберите подходящий для ситуации режим — и результат с первого раза получится чистым и готовым к редактированию.
Pixoate