OCR für Bilder und Screenshots: Text aus jedem Bild herausholen
Ein Foto einer fremdsprachigen Speisekarte, ein gescanntes Steuerformular, ein Screenshot einer langen Fehlermeldung – OCR verwandelt all das in auswählbaren, durchsuchbaren und bearbeitbaren Text. Hier erfährst du, wann du welche OCR-Variante einsetzt.
OCR – die optische Zeichenerkennung – ist die Technologie, die ein Bild von Text in echten Text verwandelt. Früher war sie langsam, fehleranfällig und auf saubere Schwarz-auf-Weiß-Scans ausgelegt. Modernes OCR bewältigt Screenshots, Handyfotos, mehrsprachige Speisekarten, handschriftliche Notizen und verblasste Belege. Spannend ist nicht die Frage, ob man OCR einsetzt – sondern welchen OCR-Modus, denn die falsche Wahl ist der häufigste Grund für schlechte Ergebnisse.
Die fünf häufigsten Situationen und das jeweils passende Werkzeug
1. Ein Screenshot, und du willst den reinen Text
Fehlermeldungen, Code-Snippets, Chat-Verläufe – Sie wollen den Text, die Formatierung ist Ihnen egal. Verwenden Sie Bild zu Text und fügen Sie das Ergebnis ein. Funktioniert bei Dark-Mode-Screenshots, verwackelten Handyfotos von Laptop-Bildschirmen, allem, was Sie lesen können.
2. Ein Foto einer Tabelle
Handyfoto einer gedruckten Tabelle, Screenshot einer Web-Tabelle, Scan eines gedruckten Berichts. Verwende keine reine Text-OCR – die Spalten brechen zusammen. Nutze Bild zu Excel für eine formatierte Tabelle oder Bild zu CSV für Rohdaten. Beide erkennen das Tabellenraster und bewahren Zeilen und Spalten.
Wenn das Foto bereits ein sauberer Screenshot einer Tabelle ist, liefert dir Bild zu HTML echte <table>-Elemente, die du in eine Webseite einfügen oder mit Tabelle zu JSON weiter konvertieren kannst.
3. Ein Foto eines Dokuments mit Überschriften und Struktur
Zeitschriftenartikel, gedruckter Bericht, mehrseitiger Vertrag. Reine Text-OCR verliert die Struktur. Verwenden Sie Bild zu Word oder Bild zu Markdown. Word liefert Ihnen eine .docx, die Sie weiter bearbeiten können; Markdown ist besser, wenn der Text in ein Wiki, eine README oder eine Notiz-App soll.
4. Text in einer Sprache, die du nicht lesen kannst
Ein Foto einer Speisekarte in Tokio, ein Schild in Kairo, ein Etikett in Stockholm. Mach nicht erst OCR und übersetze dann von Hand – nutze den Bildübersetzer, der OCR + Übersetzung in einem Schritt vereint. Er gibt den Originaltext, die Übersetzung aus und erkennt ~60 Sprachen.
5. Handschriftliche Notizen
Whiteboard-Fotos, Tagebuchseiten, Vorlesungsnotizen. Herkömmliche OCR scheitert an Schreibschrift – nutzen Sie die Handschrift-OCR, die auf verbundene, schludrige, echte menschliche Handschrift abgestimmt ist. Funktioniert am besten bei dunkler Tinte auf schlichtem Papier; je mehr Kontrast, desto besser das Ergebnis.
Ein Sonderfall: gescannte PDFs, die PDFs bleiben müssen
Wenn du ein gescanntes PDF hast, das ein PDF bleiben, aber durchsuchbar werden soll – etwa ein gescannter Vertrag, in dem du eine Klausel finden musst –, wandle es nicht in Word um. Nutze durchsuchbares PDF: Es legt eine versteckte Textebene über das Bild, sodass das PDF weiterhin wie ein Scan aussieht, aber Strg-F und die PDF-Suche funktionieren. So kannst du die Bildebene danach auch aggressiv komprimieren, ohne den Text zu verlieren.
Bessere OCR-Ergebnisse: drei Regeln
- Kontrast ist alles. Schwarze Tinte auf weißem Hintergrund wird nahezu fehlerfrei erkannt. Verblasste Tinte, unruhige Hintergründe und gemustertes Papier verschlechtern das Ergebnis. Wenn du das Foto selbst aufnimmst, mach es bei gleichmäßigem, weichem Licht, sodass das Dokument das Bild ausfüllt.
- Gerade schlägt schief. OCR-Engines korrigieren leichte Schräglagen automatisch, aber gekippte Aufnahmen (quer über den Schreibtisch fotografiert) verlieren an Genauigkeit. Halte die Kamera parallel zur Seite.
- Die Auflösung zählt bis zu einem gewissen Punkt. Rund 300 DPI sind ideal – das entspricht einem 2000-Pixel-Bild einer A4-Seite. Eine höhere Auflösung macht OCR langsamer, ohne genauer zu werden.
Spezialisierte OCR, von deren Existenz Sie vielleicht nichts wussten
- Belege – extrahiere mit dem Beleg-Extraktor Händler, Gesamtbetrag, Steuer, Datum und Einzelposten als JSON. Speziell für Spesenabrechnungen und Buchhaltung entwickelt.
- Visitenkarten – erstelle mit dem Visitenkarten-Scanner eine vCard, die sich direkt in die Kontakte importieren lässt. So verstaubt der Stapel von der Konferenz nicht länger auf deinem Schreibtisch.
OCR ist eines der wirkungsvollsten Werkzeuge in Ihrem Repertoire – fünf Minuten, um ein Foto abzutippen, werden zu fünf Sekunden. Wählen Sie den passenden Modus für die jeweilige Situation, und die Ergebnisse sind schon beim ersten Versuch sauber bearbeitbar.
Pixoate