OCR

OCR 识别图像与截图:从任何图片中提取文字

一张外语菜单的照片、一份扫描的税务表单、一段冗长报错信息的截图——OCR 能把这些全部变成可选中、可搜索、可编辑的文字。以下是各类 OCR 该在何时使用。

Pixoate 团队6 分钟阅读

OCR——光学字符识别——是一种将文字图片转换为真正可用文本的技术。它过去速度慢、容易出错,且只针对干净的黑底白字扫描件做了优化。现代 OCR 能够处理截图、手机照片、多语言菜单、手写笔记和褪色的收据。真正值得关注的不是要不要用 OCR——而是该用哪种 OCR 模式,因为选错模式正是人们得到糟糕结果的最常见原因。

五种常见情形及各自适用的工具

1. 一张截图,而你想要其中的纯文本

错误信息、代码片段、聊天记录——你只想要文字,并不在意格式。使用图片转文字,然后粘贴识别结果即可。深色模式截图、用手机拍的模糊笔记本屏幕照片,凡是你能看清的内容都能识别。

2. 一张表格的照片

用手机拍摄的打印表格、网页表格截图、打印报告的扫描件——不要使用纯文本 OCR,否则列会错乱。需要带格式的电子表格请使用图片转 Excel,需要原始数据请使用图片转 CSV。两者都能识别表格网格并保留行列结构。

如果照片本身就是一张清晰的表格截图,图片转 HTML 能为你生成真正的 <table> 元素,你可以直接放进网页,或用表格转 JSON 进一步转换。

3. 一张带有标题和结构的文档照片

杂志文章、印刷报告、多页合同。纯文本 OCR 会丢失结构。请使用 图片转 Word图片转 Markdown。Word 会生成可进一步编辑的 .docx;如果文本要发到 wiki、README 或笔记应用,Markdown 更合适。

4. 你看不懂的语言文字

东京的一张菜单、开罗的一块路牌、斯德哥尔摩的一张标签。不必先做 OCR 再手动翻译——用图片翻译器将 OCR 与翻译一步搞定。它会输出原文和译文,并能识别约 60 种语言。

5. 手写笔记

白板照片、日记页、课堂笔记。通用 OCR 无法识别连笔字——请使用手写体 OCR,它专为连笔、潦草的真人手写字进行了优化。在白纸上的深色墨迹效果最佳;对比度越高,识别效果越好。

一个特殊情况:需要保持为 PDF 的扫描版 PDF

如果你有一份扫描的 PDF,想保留为 PDF 但又能搜索——比如一份需要查找某条款的扫描合同——就不要把它转成 Word。请使用 可搜索 PDF:它会在图像上叠加一层隐藏的文字层,于是 PDF 看起来仍是扫描件,但 Ctrl-F 和 PDF 搜索都能用。之后你还可以大幅压缩图像层而不丢失文字。

获得更好的 OCR 效果:三条法则

  1. **对比度为王。**白底黑字几乎能完美识别。墨迹褪色、背景杂乱、纸张带花纹都会影响效果。如果你能掌控拍摄,请在均匀柔和的光线下拍摄,让文档充满整个画面。
  2. **端正胜过歪斜。**OCR 引擎能自动校正轻微倾斜,但拍歪的照片(隔着桌子斜着拍)会损失准确率。请让相机与页面保持平行。
  3. **分辨率在一定范围内才有意义。**相当于约 300 DPI 是最佳点——也就是一张 A4 页面对应 2000 像素的图像。再高的分辨率只会让 OCR 变慢,却不会更准确。

你或许从未听说过的专业 OCR 功能

  • 收据——用收据提取器将商家、总额、税费、日期、明细项提取为 JSON。专为报销和记账打造。
  • 名片——用名片扫描器生成可直接导入通讯录的 vCard。让会议名片不再堆在桌上发霉。

OCR 是你工具箱中投入产出比最高的工具之一——原本需要花五分钟誊抄一张照片,如今只需五秒。针对不同场景选对模式,第一次就能得到干净、可直接编辑的结果。

你可能还喜欢