OCR 识别图像与截图:从任何图片中提取文字
一张外语菜单的照片、一份扫描的税务表单、一段冗长报错信息的截图——OCR 能把这些全部变成可选中、可搜索、可编辑的文字。以下是各类 OCR 该在何时使用。
OCR——光学字符识别——是一种将文字图片转换为真正可用文本的技术。它过去速度慢、容易出错,且只针对干净的黑底白字扫描件做了优化。现代 OCR 能够处理截图、手机照片、多语言菜单、手写笔记和褪色的收据。真正值得关注的不是要不要用 OCR——而是该用哪种 OCR 模式,因为选错模式正是人们得到糟糕结果的最常见原因。
五种常见情形及各自适用的工具
1. 一张截图,而你想要其中的纯文本
错误信息、代码片段、聊天记录——你只想要文字,并不在意格式。使用图片转文字,然后粘贴识别结果即可。深色模式截图、用手机拍的模糊笔记本屏幕照片,凡是你能看清的内容都能识别。
2. 一张表格的照片
用手机拍摄的打印表格、网页表格截图、打印报告的扫描件——不要使用纯文本 OCR,否则列会错乱。需要带格式的电子表格请使用图片转 Excel,需要原始数据请使用图片转 CSV。两者都能识别表格网格并保留行列结构。
如果照片本身就是一张清晰的表格截图,图片转 HTML 能为你生成真正的 <table> 元素,你可以直接放进网页,或用表格转 JSON 进一步转换。
3. 一张带有标题和结构的文档照片
杂志文章、印刷报告、多页合同。纯文本 OCR 会丢失结构。请使用 图片转 Word 或 图片转 Markdown。Word 会生成可进一步编辑的 .docx;如果文本要发到 wiki、README 或笔记应用,Markdown 更合适。
4. 你看不懂的语言文字
东京的一张菜单、开罗的一块路牌、斯德哥尔摩的一张标签。不必先做 OCR 再手动翻译——用图片翻译器将 OCR 与翻译一步搞定。它会输出原文和译文,并能识别约 60 种语言。
5. 手写笔记
白板照片、日记页、课堂笔记。通用 OCR 无法识别连笔字——请使用手写体 OCR,它专为连笔、潦草的真人手写字进行了优化。在白纸上的深色墨迹效果最佳;对比度越高,识别效果越好。
一个特殊情况:需要保持为 PDF 的扫描版 PDF
如果你有一份扫描的 PDF,想保留为 PDF 但又能搜索——比如一份需要查找某条款的扫描合同——就不要把它转成 Word。请使用 可搜索 PDF:它会在图像上叠加一层隐藏的文字层,于是 PDF 看起来仍是扫描件,但 Ctrl-F 和 PDF 搜索都能用。之后你还可以大幅压缩图像层而不丢失文字。
获得更好的 OCR 效果:三条法则
- **对比度为王。**白底黑字几乎能完美识别。墨迹褪色、背景杂乱、纸张带花纹都会影响效果。如果你能掌控拍摄,请在均匀柔和的光线下拍摄,让文档充满整个画面。
- **端正胜过歪斜。**OCR 引擎能自动校正轻微倾斜,但拍歪的照片(隔着桌子斜着拍)会损失准确率。请让相机与页面保持平行。
- **分辨率在一定范围内才有意义。**相当于约 300 DPI 是最佳点——也就是一张 A4 页面对应 2000 像素的图像。再高的分辨率只会让 OCR 变慢,却不会更准确。
你或许从未听说过的专业 OCR 功能
OCR 是你工具箱中投入产出比最高的工具之一——原本需要花五分钟誊抄一张照片,如今只需五秒。针对不同场景选对模式,第一次就能得到干净、可直接编辑的结果。
Pixoate