OCR obrazów i zrzutów ekranu: wyciągnij tekst z dowolnego zdjęcia
Zdjęcie menu w obcym języku, zeskanowany formularz podatkowy, zrzut ekranu z długim komunikatem o błędzie — OCR zamienia to wszystko w tekst, który można zaznaczyć, przeszukać i edytować. Oto kiedy stosować który wariant OCR.
OCR — optyczne rozpoznawanie znaków — to technologia, która zamienia obraz tekstu w rzeczywisty tekst. Kiedyś była powolna, podatna na błędy i dostrojona do czystych skanów czarnego tekstu na białym tle. Współczesny OCR radzi sobie ze zrzutami ekranu, zdjęciami z telefonu, wielojęzycznymi menu, notatkami odręcznymi i wyblakłymi paragonami. Ciekawe jest nie to, czy używać OCR — lecz który tryb OCR wybrać, bo zły wybór to najczęstszy powód słabych rezultatów.
Pięć typowych sytuacji i właściwe narzędzie do każdej z nich
1. Zrzut ekranu, z którego chcesz uzyskać czysty tekst
Komunikaty o błędach, fragmenty kodu, logi czatów — potrzebujesz tekstu, formatowanie nie ma znaczenia. Użyj obrazu na tekst i wklej wynik. Działa na zrzutach ekranu w trybie ciemnym, rozmytych zdjęciach telefonem ekranu laptopa — na wszystkim, co da się odczytać.
2. Zdjęcie tabeli
Zdjęcie wydrukowanego arkusza zrobione telefonem, zrzut ekranu tabeli z internetu, skan wydrukowanego raportu. Nie używaj OCR do zwykłego tekstu — kolumny się rozsypią. Użyj obrazu do Excela, aby uzyskać sformatowany arkusz, lub obrazu do CSV, aby uzyskać surowe dane. Oba narzędzia wykrywają siatkę tabeli i zachowują wiersze oraz kolumny.
Jeśli zdjęcie jest już czystym zrzutem ekranu z tabelą, obraz na HTML zwraca prawdziwe elementy <table>, które możesz wstawić na stronę internetową lub przekonwertować dalej za pomocą tabeli na JSON.
3. Zdjęcie dokumentu z nagłówkami i strukturą
Artykuł z magazynu, drukowany raport, wielostronicowa umowa. OCR do zwykłego tekstu gubi strukturę. Skorzystaj z obrazu na Word lub obrazu na Markdown. Word daje plik .docx, który możesz dalej edytować; Markdown jest lepszy, jeśli tekst trafia do wiki, pliku README lub aplikacji z notatkami.
4. Tekst w języku, którego nie znasz
Zdjęcie menu w Tokio, znaku w Kairze, etykiety w Sztokholmie. Nie rób OCR, a potem tłumaczenia ręcznie — użyj tłumacza obrazów, który łączy OCR i tłumaczenie w jednym kroku. Zwraca oryginalny tekst, tłumaczenie i rozpoznaje ok. 60 języków.
5. Notatki odręczne
Zdjęcia tablic, strony z dziennika, notatki z wykładów. Zwykły OCR nie radzi sobie z pismem odręcznym łączonym — użyj OCR pisma odręcznego, który jest dostosowany do łączonego, niedbałego, prawdziwie ludzkiego pisma. Działa najlepiej przy ciemnym atramencie na zwykłym papierze; im większy kontrast, tym lepszy wynik.
Jeden szczególny przypadek: zeskanowane pliki PDF, które muszą pozostać plikami PDF
Jeśli masz zeskanowany plik PDF, który chcesz zachować jako PDF, ale uczynić go przeszukiwalnym — powiedzmy, zeskanowaną umowę, w której musisz wyszukać klauzulę — nie konwertuj go na Word. Skorzystaj z przeszukiwalnego PDF: dodaje on ukrytą warstwę tekstową na obrazie, dzięki czemu plik PDF nadal wygląda jak skan, ale Ctrl-F i wyszukiwanie w PDF działają. Pozwala to również później agresywnie skompresować warstwę obrazu bez utraty tekstu.
Uzyskaj lepsze wyniki OCR: trzy zasady
- Kontrast jest najważniejszy. Czarny atrament na białym tle jest odczytywany niemal idealnie. Wyblakły atrament, niespokojne tła i papier we wzory wszystko utrudniają. Jeśli masz wpływ na zdjęcie, wykonaj je w płaskim, równomiernym świetle, tak by dokument wypełniał kadr.
- Prosto jest lepiej niż krzywo. Silniki OCR automatycznie korygują niewielkie przekrzywienie, ale zdjęcia robione pod kątem (z drugiego końca biurka) tracą na dokładności. Trzymaj aparat równolegle do strony.
- Rozdzielczość ma znaczenie do pewnego momentu. Odpowiednik około 300 DPI to złoty środek — czyli obraz strony A4 o szerokości 2000 pikseli. Wyższa rozdzielczość spowalnia OCR, nie zwiększając jego dokładności.
Wyspecjalizowane OCR, o którym mogłeś nie wiedzieć
- Paragony — wyodrębnij sprzedawcę, kwotę łączną, podatek, datę i pozycje jako JSON za pomocą ekstraktora paragonów. Stworzony specjalnie pod raporty wydatków i księgowość.
- Wizytówki — wygeneruj plik vCard gotowy do zaimportowania do Kontaktów za pomocą skanera wizytówek. Koniec ze stertą konferencyjnych wizytówek zalegającą na biurku.
OCR to jedno z najbardziej efektywnych narzędzi w Twoim zestawie — pięć minut odczytywania zdjęcia może skrócić się do pięciu sekund. Wybierz odpowiedni tryb do sytuacji, a wyniki będą czyste i gotowe do edycji już za pierwszym razem.
Pixoate