FileKitFileKit
Todos los artículos
·7 min de lectura

Cómo hacer OCR de documentos escaneados — Extraer texto de imágenes

Guía de Reconocimiento Óptico de Caracteres: qué es, cómo usar OCR en el navegador, consejos para mejor precisión y cuándo usar OCR vs. extracción directa de texto.

Qué es el OCR y por qué lo necesitas

OCR (Reconocimiento Óptico de Caracteres) convierte imágenes de texto en texto digital real que puedes buscar, copiar y editar. Cuando escaneas un documento o tomas una foto de una página, el resultado es una imagen — píxeles que se ven como texto pero que la computadora no puede leer como texto. El OCR analiza las formas de los caracteres en la imagen y las convierte en caracteres de texto real.

Sin OCR: tienes una foto de un documento. Con OCR: tienes un documento digital donde puedes buscar con Ctrl+F, copiar párrafos, extraer datos a hojas de cálculo y archivar de forma buscable.

Cómo funciona el OCR moderno

El OCR moderno usa redes neuronales entrenadas con millones de muestras de texto en cientos de fuentes y estilos de escritura a mano. El proceso:

  1. Preprocesamiento — Corrección de la inclinación del escaneo, ajuste de contraste, eliminación de ruido
  2. Detección de diseño — Identificación de regiones de texto, columnas, tablas, imágenes
  3. Reconocimiento de caracteres — Cada carácter se identifica usando modelos de aprendizaje profundo
  4. Posprocesamiento — Corrección ortográfica, correcciones basadas en diccionario, formato de salida

La precisión de Tesseract (el motor de código abierto más utilizado) en documentos impresos limpios es 95-99%. En texto manuscrito, fotos torcidas o documentos de baja resolución, la precisión baja significativamente.

Herramientas de OCR

1. OCR basado en navegador

La herramienta OCR de FileKit usa Tesseract.js para ejecutar OCR completamente en tu navegador. Sube una imagen o PDF escaneado, selecciona el idioma, y extrae texto. Sin subida a servidor — tu documento nunca sale de tu dispositivo. Soporta más de 100 idiomas incluyendo inglés, español, chino, japonés, árabe y coreano.

2. Adobe Acrobat

La función de OCR de Acrobat crea una capa de texto buscable sobre la imagen original del escaneo. El resultado visual se mantiene idéntico — ves el escaneo original, pero puedes buscar y seleccionar texto. La preservación del diseño de Acrobat es mejor que la de herramientas gratuitas para documentos complejos con columnas, tablas y encabezados.

3. Línea de comandos (Tesseract)

# OCR básico
tesseract imagen.png salida -l spa

# Salida PDF buscable
tesseract escaneo.png salida -l spa pdf

# Multi-idioma
tesseract imagen.png salida -l spa+eng

Tesseract es gratuito, de código abierto y soporta más de 100 idiomas. Para procesamiento por lotes de cientos de escaneos, la línea de comandos es la forma más eficiente.

Obtener los mejores resultados de OCR

La calidad de la imagen lo es todo

  • Resolución: Mínimo 200 DPI para texto impreso, 300 DPI para texto pequeño o escritura a mano. Mayor resolución no siempre ayuda — 600 DPI raramente mejora la precisión sobre 300 DPI.
  • Contraste: Texto oscuro sobre fondo claro. Escaneos de bajo contraste producen errores significativos.
  • Alineación: Páginas rectas producen mejores resultados. Una inclinación de 2-3 grados es aceptable; una inclinación mayor necesita corrección previa.
  • Nitidez: El desenfoque mata la precisión del OCR. Si tomas fotos de documentos, asegúrate de que la cámara esté enfocada.

Selección de idioma

Siempre especifica los idiomas correctos. Tesseract usa modelos específicos de idioma para mejorar la precisión. Usar el modelo incorrecto produce sustituciones de caracteres sin sentido. Para documentos mixtos (como una carta en español con términos técnicos en inglés), especifica ambos idiomas.

Casos de uso comunes

Digitalizar documentos en papel

Escanear y hacer OCR a documentos importantes — contratos, recibos, registros médicos, cartas — crea copias digitales buscables. Combinado con compresión, puedes construir un archivo digital compacto y completamente buscable de tus documentos en papel.

Extraer datos de facturas y recibos

OCR en facturas y recibos extrae montos, fechas, números de factura e información del proveedor. Para un recibo ocasional, la extracción manual funciona. Para volúmenes altos, el OCR alimenta pipelines automatizados de procesamiento de datos.

Hacer buscables PDFs escaneados

Muchos archivos de documentos contienen PDFs que son solo imágenes de escaneos. El OCR añade una capa de texto invisible sobre cada página, haciendo que todo el archivo sea buscable mientras mantiene la apariencia del escaneo original.

Después del OCR

  • Siempre revisa la salida. Incluso con 99% de precisión, un documento de 1000 palabras tendrá aproximadamente 10 errores. Revisa nombres, cifras y términos técnicos cuidadosamente.
  • Guarda el original. Mantén la imagen o escaneo original junto con el texto OCR como referencia.
  • Si necesitas combinar varias páginas escaneadas, fusiona los PDFs después de ejecutar el OCR.
  • Para compartir, puedes comprimir el resultado — los PDFs escaneados con capas OCR pueden ser grandes.

Limitaciones del OCR

  • Escritura a mano: El OCR moderno maneja escritura a mano legible razonablemente bien, pero la escritura cursiva descuidada sigue siendo poco fiable.
  • Diseños complejos: Columnas, tablas, texto superpuesto sobre imágenes y orientaciones mixtas desafían a las herramientas de OCR gratuitas.
  • Calidad del escaneo: Ningún OCR puede recuperar texto de escaneos severamente desenfocados, de bajo contraste o dañados.
  • Fuentes decorativas: Fuentes altamente estilizadas, lettering decorativo y arte tipográfico confunden el reconocimiento de caracteres.