OCR

OCR-behandl billeder og skærmbilleder: træk tekst ud af ethvert billede

Et foto af en menu på et andet sprog, en scannet selvangivelse, et skærmbillede af en lang fejlmeddelelse — OCR laver alt dette om til markerbar, søgbar og redigerbar tekst. Her er, hvornår du skal bruge hvilken slags OCR.

Pixoate-teamet6 min. læsetid

OCR — optical character recognition — er teknologien, der forvandler et billede af tekst til egentlig tekst. Den plejede at være langsom, fejlbehæftet og indstillet til rene sort-på-hvid-scanninger. Moderne OCR håndterer skærmbilleder, telefonfotos, flersprogede menukort, håndskrevne noter og falmede kvitteringer. Det interessante er ikke, om man skal bruge OCR — det er, hvilken OCR-tilstand man skal bruge, for at vælge forkert er den mest almindelige grund til, at folk får dårlige resultater.

De fem almindelige situationer og det rette værktøj til hver

1. Et skærmbillede, og du vil have den rene tekst

Fejlmeddelelser, kodestumper, chatlogfiler — du vil have teksten, du er ligeglad med formateringen. Brug billede til tekst, og indsæt resultatet. Virker på skærmbilleder i mørk tilstand, slørede telefonfotos af laptopskærme, alt hvad du kan læse.

2. Et foto af en tabel

Telefonfoto af et printet regneark, skærmbillede af en webtabel, scanning af en printet rapport. Brug ikke OCR med ren tekst — kolonnerne falder sammen. Brug billede til Excel til et stiliseret regneark, eller billede til CSV til rådata. Begge registrerer tabelgitteret og bevarer rækker og kolonner.

Hvis billedet allerede er et rent skærmbillede af en tabel, giver billede til HTML dig rigtige <table>-elementer, som du kan indsætte i en webside eller konvertere videre med tabel til JSON.

3. Et foto af et dokument med overskrifter og struktur

Magasinartikel, trykt rapport, kontrakt over flere sider. Ren tekst-OCR mister strukturen. Brug billede til Word eller billede til Markdown. Word giver dig en .docx, du kan redigere videre i; Markdown er bedre, hvis teksten skal til en wiki, README eller noteapp.

4. Tekst på et sprog, du ikke kan læse

Et foto af en menu i Tokyo, et skilt i Kairo, en etiket i Stockholm. Lad være med at køre OCR og så oversætte manuelt — brug billedoversætteren, som kombinerer OCR + oversættelse i ét trin. Den leverer den oprindelige tekst, oversættelsen og genkender ~60 sprog.

5. Håndskrevne noter

Whiteboard-fotos, dagbogssider, forelæsningsnoter. Generisk OCR fejler på skråskrift — brug håndskrifts-OCR, som er trimmet til sammenhængende, sjusket, ægte menneskelig håndskrift. Fungerer bedst på mørk blæk på almindeligt papir; jo mere kontrast, jo bedre resultat.

Et særligt tilfælde: scannede PDF'er, der skal forblive PDF'er

Hvis du har en scannet PDF, som du vil beholde som PDF, men gøre søgbar — sig, en scannet kontrakt, hvor du skal søge efter en klausul — så lad være med at konvertere den til Word. Brug søgbar PDF: den tilføjer et skjult tekstlag over billedet, så PDF'en stadig ser ud som en scanning, men Ctrl-F og PDF-søgning virker. Dette lader dig også komprimere billedlaget aggressivt bagefter uden at miste teksten.

Få bedre OCR-resultater: tre regler

  1. Kontrast er konge. Sort blæk på hvid baggrund læses næsten perfekt. Falmet blæk, rogede baggrunde og mønstret papir skader alt sammen. Hvis du selv tager fotoet, så tag det i fladt, ensartet lys med dokumentet udfyldende rammen.
  2. Lige slår skævt. OCR-motorer retter automatisk lette skævheder, men skæve optagelser (taget på tværs af et skrivebord) mister nøjagtighed. Hold kameraet parallelt med siden.
  3. Opløsning betyder noget op til et vist punkt. Omkring 300 DPI er det optimale — det svarer til et 2000-pixels billede af en A4-side. Højere opløsning gør OCR langsommere uden at gøre den mere nøjagtig.

Specialiseret OCR, du måske ikke vidste fandtes

  • Kvitteringer — udtræk leverandør, total, moms, dato og linjeposter som JSON med kvitteringsudtrækker. Bygget specifikt til udlægsrapporter og bogføring.
  • Visitkort — generér et vCard klar til at importere til Kontakter med visitkortscanner. Sætter en stopper for, at bunken af konferencekort rådner op på dit skrivebord.

OCR er et af de værktøjer med størst gennemslagskraft i din værktøjskasse — fem minutters læsning af et foto kan blive til fem sekunder. Vælg den rigtige tilstand til situationen, og resultaterne kommer rent redigerbare ud i første forsøg.

Du kan også lide