OCR

画像やスクリーンショットのOCR:あらゆる画像からテキストを取り出す

外国語のメニューを撮った写真、スキャンした税務書類、長いエラーメッセージのスクリーンショット。OCRはこれらすべてを、選択・検索・編集できるテキストに変換します。どの場面でどのタイプのOCRを使うべきかをご紹介します。

Pixoateチーム6 分で読める

OCR(光学文字認識)は、文字の画像を実際のテキストに変換する技術です。かつては処理が遅く、誤りが多く、白地に黒のきれいなスキャン向けに調整されていました。現代のOCRはスクリーンショット、スマホの写真、多言語のメニュー、手書きのメモ、色あせたレシートにも対応します。興味深いのはOCRを使うかどうかではなく、どのOCRモードを使うかです。選択を誤ることこそが、結果が悪くなる最も一般的な原因だからです。

よくある5つの状況と、それぞれに適したツール

1. スクリーンショットで、プレーンテキストが欲しい場合

エラーメッセージ、コードスニペット、チャットログ。書式は気にせず、テキストだけが欲しい場面です。画像からテキスト変換を使って、結果を貼り付けましょう。ダークモードのスクリーンショット、ノートパソコンの画面をスマホでぼやけて撮った写真など、読めるものなら何でも対応します。

2. 表を撮った写真

印刷したスプレッドシートをスマホで撮影した写真、Web上の表のスクリーンショット、印刷したレポートのスキャンなど。プレーンテキストOCRは使わないでください。列が崩れてしまいます。書式付きのスプレッドシートには画像からExcelを、生データには画像からCSVをお使いください。どちらも表のグリッドを検出し、行と列を保持します。

写真がすでにきれいな表のスクリーンショットなら、画像からHTMLで本物の<table>要素が得られ、ウェブページに貼り付けたり、表からJSONでさらに変換したりできます。

3. 見出しや構成のある書類を撮った写真

雑誌記事、印刷されたレポート、複数ページの契約書。プレーンテキストのOCRでは構造が失われます。image to Wordまたはimage to Markdownをご利用ください。Wordならさらに編集できる.docxが手に入ります。テキストをwikiやREADME、メモアプリに使うならMarkdownの方が適しています。

4. 読めない言語のテキスト

東京のメニュー、カイロの看板、ストックホルムのラベルを撮った写真。OCRをかけてから手作業で翻訳するのではなく、OCRと翻訳を1ステップで行う画像翻訳ツールを使いましょう。元のテキストと翻訳を出力し、約60言語に対応しています。

5. 手書きのメモ

ホワイトボードの写真、ノートのページ、講義のメモなど。一般的なOCRは筆記体ではうまく読み取れません。つながった、くずれた、本物の人間の手書き文字に合わせて調整された手書き文字OCRをお使いください。無地の紙に濃いインクで書かれたものに最も適しており、コントラストが高いほど結果が良くなります。

1つの特殊なケース:PDFのまま残す必要があるスキャン済みPDF

スキャンしたPDFをPDFのまま残しつつ検索可能にしたい場合、たとえば条項を探したいスキャン契約書などは、Wordに変換しないでください。検索可能PDFを使いましょう。画像の上に見えないテキストレイヤーを追加するので、PDFはスキャンのままに見えつつ、Ctrl-FやPDF検索が機能します。これにより、その後テキストを失うことなく画像レイヤーを思い切り圧縮することもできます。

OCRの精度を高める3つのコツ

  1. コントラストがすべてです。 白い背景に黒いインクならほぼ完璧に読み取れます。かすれたインク、ごちゃごちゃした背景、模様のある紙はいずれも精度を下げます。撮影をコントロールできるなら、ムラのない均一な光のもとで、書類が画面いっぱいに収まるように撮りましょう。
  2. まっすぐ撮るほうが斜めより良いです。 OCRエンジンはわずかな傾きは自動補正しますが、傾いた撮影(机の向こうから撮ったものなど)は精度が落ちます。カメラをページと平行に構えましょう。
  3. 解像度はある程度までは重要です。 約300 DPI相当がちょうどよいバランスで、これはA4ページを2000ピクセルで撮った画像にあたります。これ以上解像度を上げてもOCRは遅くなるだけで、精度は上がりません。

存在を知らなかったかもしれない専門的なOCR

  • レシートレシート抽出ツールで店名、合計、税額、日付、明細をJSONとして抽出します。経費精算や帳簿付けのために特別に作られています。
  • 名刺名刺スキャナーで連絡先にすぐインポートできるvCardを生成します。机の上に名刺の山が眠ったままになるのを防ぎます。

OCRは、手持ちのツールの中でも特に効果の大きいものの1つです。写真を読み取る5分が5秒に短縮できます。状況に合ったモードを選べば、一度で編集しやすいきれいな結果が得られます。

こちらもおすすめ