OCR hình ảnh và ảnh chụp màn hình: trích xuất văn bản từ bất kỳ bức ảnh nào
Một bức ảnh chụp thực đơn bằng ngôn ngữ khác, một tờ khai thuế đã quét, một ảnh chụp màn hình thông báo lỗi dài — OCR biến tất cả những thứ này thành văn bản có thể chọn, tìm kiếm và chỉnh sửa được. Dưới đây là khi nào nên dùng loại OCR nào.
OCR — nhận dạng ký tự quang học — là công nghệ biến một bức ảnh chứa chữ thành văn bản thực sự. Trước đây nó chậm, dễ sai sót và chỉ được tối ưu cho những bản quét chữ đen trên nền trắng sạch sẽ. OCR hiện đại xử lý được cả ảnh chụp màn hình, ảnh chụp bằng điện thoại, thực đơn đa ngôn ngữ, ghi chú viết tay và hóa đơn đã phai mờ. Điều thú vị không phải là có nên dùng OCR hay không — mà là dùng chế độ OCR nào, bởi chọn sai chính là lý do phổ biến nhất khiến mọi người nhận được kết quả kém.
Năm tình huống thường gặp và công cụ phù hợp cho từng tình huống
1. Một ảnh chụp màn hình, và bạn muốn lấy văn bản thuần
Thông báo lỗi, đoạn mã, nhật ký trò chuyện — bạn cần lấy nội dung văn bản chứ không quan tâm định dạng. Hãy dùng chuyển ảnh thành văn bản rồi dán kết quả. Hoạt động với ảnh chụp màn hình chế độ tối, ảnh điện thoại chụp màn hình laptop bị mờ, bất cứ thứ gì bạn có thể đọc được.
2. Một bức ảnh chụp bảng
Ảnh chụp điện thoại của bảng tính đã in, ảnh chụp màn hình bảng web, bản quét báo cáo đã in. Đừng dùng OCR văn bản thuần — các cột sẽ bị xáo trộn. Dùng ảnh sang Excel để có bảng tính được định dạng, hoặc ảnh sang CSV để có dữ liệu thô. Cả hai đều phát hiện lưới bảng và giữ nguyên hàng cùng cột.
Nếu ảnh đã là ảnh chụp màn hình bảng rõ ràng, ảnh sang HTML sẽ cho bạn các phần tử <table> thực sự để chèn vào trang web hoặc chuyển đổi tiếp với bảng sang JSON.
3. Một bức ảnh chụp tài liệu có tiêu đề và cấu trúc
Bài tạp chí, báo cáo in, hợp đồng nhiều trang. OCR văn bản thuần làm mất cấu trúc. Hãy dùng ảnh sang Word hoặc ảnh sang Markdown. Word cho bạn một tệp .docx để chỉnh sửa tiếp; Markdown tốt hơn nếu văn bản sẽ đưa vào wiki, README hay ứng dụng ghi chú.
4. Văn bản bằng ngôn ngữ bạn không đọc được
Một bức ảnh chụp thực đơn ở Tokyo, một tấm biển ở Cairo, một nhãn hàng ở Stockholm. Đừng thực hiện OCR rồi dịch thủ công — hãy dùng trình dịch ảnh kết hợp OCR + dịch trong một bước. Nó cho ra văn bản gốc, bản dịch, và nhận diện được khoảng 60 ngôn ngữ.
5. Ghi chú viết tay
Ảnh chụp bảng trắng, trang nhật ký, ghi chú bài giảng. OCR thông thường thất bại với chữ viết nối nét — hãy dùng OCR chữ viết tay được tinh chỉnh cho chữ viết tay người thật, nối nét và nguệch ngoạc. Hoạt động tốt nhất với mực đậm trên giấy trơn; càng tương phản, kết quả càng tốt.
Một trường hợp đặc biệt: các tệp PDF đã quét cần giữ nguyên định dạng PDF
Nếu bạn có một PDF được quét mà muốn giữ ở dạng PDF nhưng có thể tìm kiếm — chẳng hạn một hợp đồng được quét mà bạn cần tìm một điều khoản — đừng chuyển nó sang Word. Hãy dùng PDF có thể tìm kiếm: nó thêm một lớp văn bản ẩn lên trên hình ảnh để PDF vẫn trông như bản quét nhưng Ctrl-F và tính năng tìm kiếm PDF vẫn hoạt động. Cách này cũng cho phép bạn nén mạnh lớp hình ảnh về sau mà không làm mất văn bản.
Nhận kết quả OCR tốt hơn: ba quy tắc
- Tương phản là vua. Mực đen trên nền trắng được nhận diện gần như hoàn hảo. Mực phai, nền rối và giấy có họa tiết đều gây cản trở. Nếu bạn chủ động được khi chụp, hãy chụp dưới ánh sáng đều, không gắt và để tài liệu lấp đầy khung hình.
- Thẳng tốt hơn lệch. Các công cụ OCR tự động sửa độ nghiêng nhẹ, nhưng những ảnh chụp xiên (chụp từ phía bên kia bàn) sẽ giảm độ chính xác. Hãy giữ máy ảnh song song với trang giấy.
- Độ phân giải quan trọng đến một mức nhất định. Tương đương khoảng 300 DPI là điểm tối ưu — tức là ảnh 2000 điểm ảnh của một trang A4. Độ phân giải cao hơn khiến OCR chậm hơn mà không chính xác hơn.
Những công cụ OCR chuyên biệt mà có thể bạn chưa biết là tồn tại
- Hóa đơn — trích xuất nhà cung cấp, tổng tiền, thuế, ngày tháng, các dòng hàng dưới dạng JSON với trình trích xuất hóa đơn. Được xây dựng riêng cho báo cáo chi phí và sổ sách kế toán.
- Danh thiếp — tạo một vCard sẵn sàng nhập vào Danh bạ với trình quét danh thiếp. Giúp chồng danh thiếp hội nghị không còn nằm chất đống trên bàn bạn.
OCR là một trong những công cụ mang lại hiệu quả cao nhất trong bộ công cụ của bạn — năm phút đọc một bức ảnh có thể rút xuống còn năm giây. Chọn đúng chế độ cho từng tình huống và kết quả sẽ ra ngay lập tức, gọn gàng và có thể chỉnh sửa ngay từ lần đầu.
Pixoate