OCR gambar dan tangkapan layar: tarik teks dari gambar apa pun
Foto menu dalam bahasa lain, formulir pajak hasil pindai, tangkapan layar pesan error yang panjang — OCR mengubah semua ini menjadi teks yang bisa diseleksi, dicari, dan diedit. Berikut kapan harus menggunakan jenis OCR yang mana.
OCR — optical character recognition — adalah teknologi yang mengubah gambar teks menjadi teks sungguhan. Dulu ia lambat, rawan kesalahan, dan disetel untuk pindaian hitam-di-atas-putih yang bersih. OCR modern menangani tangkapan layar, foto ponsel, menu multibahasa, catatan tulisan tangan, dan struk yang pudar. Bagian menariknya bukan apakah harus memakai OCR — melainkan mode OCR mana yang dipakai, karena salah pilih adalah alasan paling umum orang mendapat hasil buruk.
Lima situasi umum dan alat yang tepat untuk masing-masing
1. Tangkapan layar, dan Anda menginginkan teks polosnya
Pesan kesalahan, cuplikan kode, log obrolan — Anda menginginkan teksnya, bukan formatnya. Gunakan image to text dan tempelkan hasilnya. Berfungsi pada tangkapan layar mode gelap, foto buram layar laptop dari ponsel, apa pun yang dapat Anda baca.
2. Foto sebuah tabel
Foto ponsel dari spreadsheet tercetak, tangkapan layar tabel web, atau pindaian laporan tercetak. Jangan gunakan OCR teks biasa — kolomnya akan berantakan. Gunakan image ke Excel untuk spreadsheet bergaya, atau image ke CSV untuk data mentah. Keduanya mendeteksi grid tabel dan mempertahankan baris serta kolom.
Jika fotonya sudah berupa tangkapan layar tabel yang rapi, gambar ke HTML memberi Anda elemen <table> asli yang bisa langsung ditempatkan ke halaman web atau dikonversi lebih lanjut dengan tabel ke JSON.
3. Foto dokumen dengan heading dan struktur
Artikel majalah, laporan cetak, kontrak multi-halaman. OCR teks polos kehilangan strukturnya. Gunakan gambar ke Word atau gambar ke Markdown. Word memberi Anda .docx yang dapat diedit lebih lanjut; Markdown lebih baik jika teksnya akan dipindahkan ke wiki, README, atau aplikasi catatan.
4. Teks dalam bahasa yang tidak bisa Anda baca
Foto menu di Tokyo, papan tanda di Kairo, label di Stockholm. Jangan lakukan OCR lalu menerjemahkan manual — gunakan penerjemah gambar yang menggabungkan OCR + terjemahan dalam satu langkah. Menghasilkan teks asli, terjemahan, dan mengenali ~60 bahasa.
5. Catatan tulisan tangan
Foto papan tulis, halaman jurnal, catatan kuliah. OCR generik gagal pada tulisan sambung — gunakan OCR tulisan tangan yang disetel untuk tulisan tangan manusia yang menyambung, berantakan, dan asli. Bekerja paling baik pada tinta gelap di kertas polos; semakin tinggi kontrasnya, semakin baik hasilnya.
Satu kasus khusus: PDF hasil pindaian yang perlu tetap berupa PDF
Jika Anda memiliki PDF hasil pindaian yang ingin tetap berbentuk PDF namun bisa dicari — misalnya kontrak hasil scan yang perlu Anda telusuri untuk mencari sebuah klausul — jangan konversi ke Word. Gunakan PDF yang dapat dicari: alat ini menambahkan lapisan teks tersembunyi di atas gambar sehingga PDF tetap terlihat seperti hasil pindaian namun Ctrl-F dan pencarian PDF berfungsi. Ini juga memungkinkan Anda mengompres lapisan gambar secara agresif setelahnya tanpa kehilangan teks.
Dapatkan hasil OCR yang lebih baik: tiga aturan
- Kontras adalah raja. Tinta hitam di atas latar putih terbaca hampir sempurna. Tinta pudar, latar ramai, dan kertas bermotif semuanya merugikan. Jika Anda mengendalikan pengambilan foto, ambil dengan cahaya rata dan merata dengan dokumen memenuhi bingkai.
- Lurus lebih baik daripada miring. Mesin OCR otomatis mengoreksi kemiringan ringan, tapi foto yang miring (diambil dari seberang meja) kehilangan akurasi. Pegang kamera sejajar dengan halaman.
- Resolusi penting sampai batas tertentu. Setara sekitar 300 DPI adalah titik ideal — yaitu gambar 2000 piksel dari halaman A4. Resolusi lebih tinggi membuat OCR lebih lambat tanpa membuatnya lebih akurat.
OCR khusus yang mungkin tidak Anda ketahui keberadaannya
- Struk — ekstrak penjual, total, pajak, tanggal, dan rincian item sebagai JSON dengan ekstraktor struk. Dibuat khusus untuk laporan pengeluaran dan pembukuan.
- Kartu nama — buat vCard yang siap diimpor ke Kontak dengan pemindai kartu nama. Hentikan tumpukan kartu dari konferensi membusuk di meja Anda.
OCR adalah salah satu alat paling berdampak dalam perangkat Anda — membaca sebuah foto yang biasanya makan waktu lima menit bisa menjadi lima detik. Pilih mode yang tepat untuk situasinya dan hasilnya keluar dalam bentuk yang rapi serta bisa diedit pada percobaan pertama.
Pixoate