OCR for bilder og skjermbilder: hent tekst ut av et hvilket som helst bilde
Et foto av en meny på et annet språk, et skannet selvangivelsesskjema, et skjermbilde av en lang feilmelding – OCR gjør alt dette om til markerbar, søkbar og redigerbar tekst. Her er når du bør bruke hvilken OCR-variant.
OCR – optisk tegngjenkjenning – er teknologien som gjør et bilde av tekst om til faktisk tekst. Den pleide å være treg, feilutsatt og tilpasset rene svart-på-hvitt-skanninger. Moderne OCR håndterer skjermbilder, mobilbilder, flerspråklige menyer, håndskrevne notater og falmede kvitteringer. Det interessante er ikke om du skal bruke OCR – det er hvilken OCR-modus du skal bruke, for å velge feil er den vanligste grunnen til at folk får dårlige resultater.
De fem vanlige situasjonene og riktig verktøy for hver av dem
1. Et skjermbilde, og du vil ha den rene teksten
Feilmeldinger, kodebiter, chatlogger — du vil ha teksten, du bryr deg ikke om formateringen. Bruk bilde til tekst og lim inn resultatet. Fungerer på skjermbilder i mørk modus, uskarpe mobilbilder av laptop-skjermer, alt du kan lese.
2. Et foto av en tabell
Mobilbilde av et utskrevet regneark, skjermbilde av en netttabell, skanning av en utskrevet rapport. Ikke bruk OCR for ren tekst – kolonnene vil kollapse. Bruk bilde til Excel for et formatert regneark, eller bilde til CSV for rådata. Begge gjenkjenner tabellrutenettet og bevarer rader og kolonner.
Hvis bildet allerede er et rent skjermbilde av en tabell, gir bilde til HTML deg ekte <table>-elementer som du kan slippe rett inn i en nettside eller konvertere videre med tabell til JSON.
3. Et foto av et dokument med overskrifter og struktur
Magasinartikkel, trykt rapport, flersides kontrakt. OCR av ren tekst mister strukturen. Bruk bilde til Word eller bilde til Markdown. Word gir deg en .docx du kan redigere videre; Markdown er bedre hvis teksten skal til en wiki, README eller notatapp.
4. Tekst på et språk du ikke kan lese
Et foto av en meny i Tokyo, et skilt i Kairo, en etikett i Stockholm. Ikke gjør OCR og oversett manuelt etterpå – bruk bildeoversetter som kombinerer OCR + oversettelse i ett trinn. Gir ut originalteksten, oversettelsen og gjenkjenner ~60 språk.
5. Håndskrevne notater
Tavlebilder, dagboksider, forelesningsnotater. Generell OCR mislykkes med løkkeskrift — bruk håndskrift-OCR som er optimalisert for sammenhengende, slurvete håndskrift fra ekte mennesker. Fungerer best med mørk blekk på vanlig papir; jo mer kontrast, desto bedre resultat.
Ett spesialtilfelle: skannede PDF-er som må forbli PDF-er
Hvis du har en skannet PDF som du vil beholde som PDF, men gjøre søkbar – si en skannet kontrakt der du må finne en bestemt klausul – ikke konverter den til Word. Bruk søkbar PDF: den legger til et skjult tekstlag over bildet, slik at PDF-en fortsatt ser ut som en skanning, men Ctrl-F og PDF-søk fungerer. Dette lar deg også komprimere bildelaget kraftig etterpå uten å miste teksten.
Få bedre OCR-resultater: tre regler
- Kontrast er konge. Svart blekk på hvit bakgrunn leses nesten perfekt. Falmet blekk, travle bakgrunner og mønstret papir trekker ned. Hvis du styrer fotoet, ta det i flatt, jevnt lys med dokumentet som fyller bildet.
- Rett slår skjevt. OCR-motorer korrigerer automatisk for lett skjevhet, men skjeve bilder (tatt på tvers av en pult) taper nøyaktighet. Hold kameraet parallelt med siden.
- Oppløsning betyr noe opp til et visst punkt. Rundt tilsvarende 300 DPI er det optimale – det er et 2000 piksler bredt bilde av en A4-side. Høyere oppløsning gjør OCR tregere uten å gjøre den mer nøyaktig.
Spesialisert OCR du kanskje ikke visste fantes
- Kvitteringer – trekk ut leverandør, totalsum, mva., dato og varelinjer som JSON med kvitteringsuttrekker. Bygget spesielt for utgiftsrapporter og bokføring.
- Visittkort – lag et vCard som er klart til import i Kontakter med visittkortskanner. Hindrer at konferansekorthaugen blir liggende og samle støv på pulten.
OCR er et av de mest verdifulle verktøyene i verktøykassen din – fem minutters lesing av et bilde kan bli til fem sekunder. Velg riktig modus for situasjonen, så blir resultatet rent og redigerbart på første forsøk.
Pixoate