ocr

OCR obrazów i zrzutów ekranu: wyciągnij tekst z dowolnego zdjęcia

Zdjęcie menu w obcym języku, zeskanowany formularz podatkowy, zrzut ekranu z długim komunikatem o błędzie — OCR zamienia to wszystko w tekst, który można zaznaczyć, przeszukać i edytować. Oto kiedy stosować który wariant OCR.

Zespół Pixoate6 min czytania

OCR — optyczne rozpoznawanie znaków — to technologia, która zamienia obraz tekstu w rzeczywisty tekst. Kiedyś była powolna, podatna na błędy i dostrojona do czystych skanów czarnego tekstu na białym tle. Współczesny OCR radzi sobie ze zrzutami ekranu, zdjęciami z telefonu, wielojęzycznymi menu, notatkami odręcznymi i wyblakłymi paragonami. Ciekawe jest nie to, czy używać OCR — lecz który tryb OCR wybrać, bo zły wybór to najczęstszy powód słabych rezultatów.

Pięć typowych sytuacji i właściwe narzędzie do każdej z nich

1. Zrzut ekranu, z którego chcesz uzyskać czysty tekst

Komunikaty o błędach, fragmenty kodu, logi czatów — potrzebujesz tekstu, formatowanie nie ma znaczenia. Użyj obrazu na tekst i wklej wynik. Działa na zrzutach ekranu w trybie ciemnym, rozmytych zdjęciach telefonem ekranu laptopa — na wszystkim, co da się odczytać.

2. Zdjęcie tabeli

Zdjęcie wydrukowanego arkusza zrobione telefonem, zrzut ekranu tabeli z internetu, skan wydrukowanego raportu. Nie używaj OCR do zwykłego tekstu — kolumny się rozsypią. Użyj obrazu do Excela, aby uzyskać sformatowany arkusz, lub obrazu do CSV, aby uzyskać surowe dane. Oba narzędzia wykrywają siatkę tabeli i zachowują wiersze oraz kolumny.

Jeśli zdjęcie jest już czystym zrzutem ekranu z tabelą, obraz na HTML zwraca prawdziwe elementy <table>, które możesz wstawić na stronę internetową lub przekonwertować dalej za pomocą tabeli na JSON.

3. Zdjęcie dokumentu z nagłówkami i strukturą

Artykuł z magazynu, drukowany raport, wielostronicowa umowa. OCR do zwykłego tekstu gubi strukturę. Skorzystaj z obrazu na Word lub obrazu na Markdown. Word daje plik .docx, który możesz dalej edytować; Markdown jest lepszy, jeśli tekst trafia do wiki, pliku README lub aplikacji z notatkami.

4. Tekst w języku, którego nie znasz

Zdjęcie menu w Tokio, znaku w Kairze, etykiety w Sztokholmie. Nie rób OCR, a potem tłumaczenia ręcznie — użyj tłumacza obrazów, który łączy OCR i tłumaczenie w jednym kroku. Zwraca oryginalny tekst, tłumaczenie i rozpoznaje ok. 60 języków.

5. Notatki odręczne

Zdjęcia tablic, strony z dziennika, notatki z wykładów. Zwykły OCR nie radzi sobie z pismem odręcznym łączonym — użyj OCR pisma odręcznego, który jest dostosowany do łączonego, niedbałego, prawdziwie ludzkiego pisma. Działa najlepiej przy ciemnym atramencie na zwykłym papierze; im większy kontrast, tym lepszy wynik.

Jeden szczególny przypadek: zeskanowane pliki PDF, które muszą pozostać plikami PDF

Jeśli masz zeskanowany plik PDF, który chcesz zachować jako PDF, ale uczynić go przeszukiwalnym — powiedzmy, zeskanowaną umowę, w której musisz wyszukać klauzulę — nie konwertuj go na Word. Skorzystaj z przeszukiwalnego PDF: dodaje on ukrytą warstwę tekstową na obrazie, dzięki czemu plik PDF nadal wygląda jak skan, ale Ctrl-F i wyszukiwanie w PDF działają. Pozwala to również później agresywnie skompresować warstwę obrazu bez utraty tekstu.

Uzyskaj lepsze wyniki OCR: trzy zasady

  1. Kontrast jest najważniejszy. Czarny atrament na białym tle jest odczytywany niemal idealnie. Wyblakły atrament, niespokojne tła i papier we wzory wszystko utrudniają. Jeśli masz wpływ na zdjęcie, wykonaj je w płaskim, równomiernym świetle, tak by dokument wypełniał kadr.
  2. Prosto jest lepiej niż krzywo. Silniki OCR automatycznie korygują niewielkie przekrzywienie, ale zdjęcia robione pod kątem (z drugiego końca biurka) tracą na dokładności. Trzymaj aparat równolegle do strony.
  3. Rozdzielczość ma znaczenie do pewnego momentu. Odpowiednik około 300 DPI to złoty środek — czyli obraz strony A4 o szerokości 2000 pikseli. Wyższa rozdzielczość spowalnia OCR, nie zwiększając jego dokładności.

Wyspecjalizowane OCR, o którym mogłeś nie wiedzieć

  • Paragony — wyodrębnij sprzedawcę, kwotę łączną, podatek, datę i pozycje jako JSON za pomocą ekstraktora paragonów. Stworzony specjalnie pod raporty wydatków i księgowość.
  • Wizytówki — wygeneruj plik vCard gotowy do zaimportowania do Kontaktów za pomocą skanera wizytówek. Koniec ze stertą konferencyjnych wizytówek zalegającą na biurku.

OCR to jedno z najbardziej efektywnych narzędzi w Twoim zestawie — pięć minut odczytywania zdjęcia może skrócić się do pięciu sekund. Wybierz odpowiedni tryb do sytuacji, a wyniki będą czyste i gotowe do edycji już za pierwszym razem.

Może Ci się również spodobać