OCR de imágenes y capturas de pantalla: extrae texto de cualquier imagen
Una foto de un menú en otro idioma, un formulario fiscal escaneado, una captura de un mensaje de error largo: el OCR convierte todo esto en texto que puedes seleccionar, buscar y editar. Aquí tienes cuándo usar cada tipo de OCR.
El OCR (reconocimiento óptico de caracteres) es la tecnología que convierte una imagen de texto en texto real. Antes era lento, propenso a errores y estaba pensado para escaneos limpios de negro sobre blanco. El OCR moderno maneja capturas de pantalla, fotos de móvil, menús multilingües, notas manuscritas y recibos descoloridos. Lo interesante no es si usar OCR, sino qué modo de OCR usar, porque elegir mal es la razón más común por la que la gente obtiene malos resultados.
Las cinco situaciones habituales y la herramienta adecuada para cada una
1. Una captura de pantalla de la que quieres el texto plano
Mensajes de error, fragmentos de código, registros de chat: quieres el texto y no te importa el formato. Usa imagen a texto y pega el resultado. Funciona con capturas en modo oscuro, fotos borrosas de pantallas de portátil hechas con el móvil y cualquier cosa que puedas leer.
2. Una foto de una tabla
Una foto de una hoja de cálculo impresa hecha con el móvil, una captura de pantalla de una tabla web o el escaneo de un informe impreso. No uses OCR de texto plano: las columnas se vendrán abajo. Usa imagen a Excel para una hoja de cálculo con formato, o imagen a CSV para datos sin procesar. Ambos detectan la cuadrícula de la tabla y conservan las filas y columnas.
Si la foto ya es una captura limpia de una tabla, imagen a HTML te da elementos <table> reales que puedes insertar en una página web o convertir aún más con tabla a JSON.
3. Una foto de un documento con encabezados y estructura
Artículo de revista, informe impreso, contrato de varias páginas. El OCR de texto sin formato pierde la estructura. Usa imagen a Word o imagen a Markdown. Word te da un .docx que puedes seguir editando; Markdown es mejor si el texto va a parar a una wiki, un README o una aplicación de notas.
4. Texto en un idioma que no sabes leer
Una foto de un menú en Tokio, un cartel en El Cairo, una etiqueta en Estocolmo. No hagas OCR y luego traduzcas a mano: usa el traductor de imágenes, que combina OCR + traducción en un solo paso. Devuelve el texto original, la traducción y reconoce ~60 idiomas.
5. Notas manuscritas
Fotos de pizarras, páginas de diarios, apuntes de clase. El OCR genérico falla con la letra cursiva: usa OCR de escritura a mano, que está optimizado para letra manuscrita real, enlazada y desordenada. Funciona mejor con tinta oscura sobre papel liso; cuanto más contraste, mejor será el resultado.
Un caso especial: los PDF escaneados que deben seguir siendo PDF
Si tienes un PDF escaneado que quieres mantener como PDF pero hacerlo buscable (por ejemplo, un contrato escaneado en el que necesitas buscar una cláusula), no lo conviertas a Word. Usa PDF con búsqueda: añade una capa de texto oculta sobre la imagen, de modo que el PDF siga pareciendo un escaneo pero Ctrl-F y la búsqueda del PDF funcionen. Esto también te permite comprimir después la capa de imagen de forma agresiva sin perder el texto.
Consigue mejores resultados de OCR: tres reglas
- El contraste es el rey. La tinta negra sobre fondo blanco se lee casi a la perfección. La tinta desvaída, los fondos recargados y el papel estampado lo empeoran todo. Si controlas la foto, tómala con luz plana y uniforme y con el documento llenando el encuadre.
- Recto gana a torcido. Los motores de OCR corrigen automáticamente una inclinación leve, pero las tomas torcidas (hechas desde el otro lado de la mesa) pierden precisión. Mantén la cámara paralela a la página.
- La resolución importa hasta cierto punto. El equivalente a unos 300 DPI es el punto óptimo: una imagen de 2000 píxeles de una página A4. Una resolución mayor hace el OCR más lento sin hacerlo más preciso.
OCR especializado que quizá no sabías que existía
- Recibos — extrae el proveedor, el total, los impuestos, la fecha y las líneas de detalle como JSON con el extractor de recibos. Creado específicamente para informes de gastos y contabilidad.
- Tarjetas de visita — genera un vCard listo para importar a tus Contactos con el escáner de tarjetas de visita. Evita que el montón de tarjetas del congreso acabe pudriéndose en tu escritorio.
El OCR es una de las herramientas de mayor impacto de tu arsenal: cinco minutos leyendo una foto pueden convertirse en cinco segundos. Elige el modo adecuado para cada situación y los resultados salen limpios y editables al primer intento.
Pixoate