画像やスクリーンショットのOCR:あらゆる画像からテキストを取り出す
外国語のメニューを撮った写真、スキャンした税務書類、長いエラーメッセージのスクリーンショット。OCRはこれらすべてを、選択・検索・編集できるテキストに変換します。どの場面でどのタイプのOCRを使うべきかをご紹介します。
OCR(光学文字認識)は、文字の画像を実際のテキストに変換する技術です。かつては処理が遅く、誤りが多く、白地に黒のきれいなスキャン向けに調整されていました。現代のOCRはスクリーンショット、スマホの写真、多言語のメニュー、手書きのメモ、色あせたレシートにも対応します。興味深いのはOCRを使うかどうかではなく、どのOCRモードを使うかです。選択を誤ることこそが、結果が悪くなる最も一般的な原因だからです。
よくある5つの状況と、それぞれに適したツール
1. スクリーンショットで、プレーンテキストが欲しい場合
エラーメッセージ、コードスニペット、チャットログ。書式は気にせず、テキストだけが欲しい場面です。画像からテキスト変換を使って、結果を貼り付けましょう。ダークモードのスクリーンショット、ノートパソコンの画面をスマホでぼやけて撮った写真など、読めるものなら何でも対応します。
2. 表を撮った写真
印刷したスプレッドシートをスマホで撮影した写真、Web上の表のスクリーンショット、印刷したレポートのスキャンなど。プレーンテキストOCRは使わないでください。列が崩れてしまいます。書式付きのスプレッドシートには画像からExcelを、生データには画像からCSVをお使いください。どちらも表のグリッドを検出し、行と列を保持します。
写真がすでにきれいな表のスクリーンショットなら、画像からHTMLで本物の<table>要素が得られ、ウェブページに貼り付けたり、表からJSONでさらに変換したりできます。
3. 見出しや構成のある書類を撮った写真
雑誌記事、印刷されたレポート、複数ページの契約書。プレーンテキストのOCRでは構造が失われます。image to Wordまたはimage to Markdownをご利用ください。Wordならさらに編集できる.docxが手に入ります。テキストをwikiやREADME、メモアプリに使うならMarkdownの方が適しています。
4. 読めない言語のテキスト
東京のメニュー、カイロの看板、ストックホルムのラベルを撮った写真。OCRをかけてから手作業で翻訳するのではなく、OCRと翻訳を1ステップで行う画像翻訳ツールを使いましょう。元のテキストと翻訳を出力し、約60言語に対応しています。
5. 手書きのメモ
ホワイトボードの写真、ノートのページ、講義のメモなど。一般的なOCRは筆記体ではうまく読み取れません。つながった、くずれた、本物の人間の手書き文字に合わせて調整された手書き文字OCRをお使いください。無地の紙に濃いインクで書かれたものに最も適しており、コントラストが高いほど結果が良くなります。
1つの特殊なケース:PDFのまま残す必要があるスキャン済みPDF
スキャンしたPDFをPDFのまま残しつつ検索可能にしたい場合、たとえば条項を探したいスキャン契約書などは、Wordに変換しないでください。検索可能PDFを使いましょう。画像の上に見えないテキストレイヤーを追加するので、PDFはスキャンのままに見えつつ、Ctrl-FやPDF検索が機能します。これにより、その後テキストを失うことなく画像レイヤーを思い切り圧縮することもできます。
OCRの精度を高める3つのコツ
- コントラストがすべてです。 白い背景に黒いインクならほぼ完璧に読み取れます。かすれたインク、ごちゃごちゃした背景、模様のある紙はいずれも精度を下げます。撮影をコントロールできるなら、ムラのない均一な光のもとで、書類が画面いっぱいに収まるように撮りましょう。
- まっすぐ撮るほうが斜めより良いです。 OCRエンジンはわずかな傾きは自動補正しますが、傾いた撮影(机の向こうから撮ったものなど)は精度が落ちます。カメラをページと平行に構えましょう。
- 解像度はある程度までは重要です。 約300 DPI相当がちょうどよいバランスで、これはA4ページを2000ピクセルで撮った画像にあたります。これ以上解像度を上げてもOCRは遅くなるだけで、精度は上がりません。
存在を知らなかったかもしれない専門的なOCR
- レシート — レシート抽出ツールで店名、合計、税額、日付、明細をJSONとして抽出します。経費精算や帳簿付けのために特別に作られています。
- 名刺 — 名刺スキャナーで連絡先にすぐインポートできるvCardを生成します。机の上に名刺の山が眠ったままになるのを防ぎます。
OCRは、手持ちのツールの中でも特に効果の大きいものの1つです。写真を読み取る5分が5秒に短縮できます。状況に合ったモードを選べば、一度で編集しやすいきれいな結果が得られます。
Pixoate