Cómo hacer OCR de documentos escaneados — Extraer texto de imágenes
Guía de Reconocimiento Óptico de Caracteres: qué es, cómo usar OCR en el navegador, consejos para mejor precisión y cuándo usar OCR vs. extracción directa de texto.
¿Qué es el OCR?
OCR (Reconocimiento Óptico de Caracteres) convierte imágenes de texto en texto real, seleccionable y buscable. Si tienes un contrato escaneado, una foto de pizarra o una captura de pantalla de una conversación, el OCR extrae el texto para que puedas copiarlo, editarlo, buscarlo y procesarlo.
Cómo hacer OCR de un documento
1. OCR en el navegador
La herramienta OCR de FileKit usa Tesseract.js — un motor OCR de código abierto compilado a WebAssembly — para reconocer texto completamente en tu navegador. Soporta inglés, chino simplificado, japonés e inglés+chino combinado. Suelta una imagen o PDF escaneado, elige el idioma y obtén el texto extraído en segundos.
2. Google Drive
Sube un PDF escaneado o imagen a Google Drive, clic derecho → Abrir con → Google Docs. Google aplica OCR automáticamente y crea un documento editable. Funciona bien para diseños simples pero tiene dificultades con formatos complejos.
3. Adobe Acrobat
La función "Escanear y OCR" de Acrobat crea una capa de texto buscable sobre las páginas escaneadas. La imagen original permanece intacta mientras el texto se vuelve seleccionable y buscable. Ideal para calidad de archivo.
Consejos para mejor precisión del OCR
- La resolución importa. Apunta a un mínimo de 150 DPI, 300 DPI para mejores resultados. Las fotos de baja resolución tomadas con el teléfono a menudo producen poca precisión.
- El contraste es clave. Texto oscuro sobre fondo blanco da los mejores resultados. Fondos de color, marcas de agua y texto de bajo contraste degradan la precisión.
- Endereza la imagen. El texto torcido o rotado confunde a los motores OCR. Alinea el documento antes de escanear o fotografiar.
- Elige el idioma correcto. Siempre selecciona el idioma principal del documento. Los documentos multilingües funcionan mejor con el modo combinado.
OCR vs. extracción de texto
No todos los PDFs necesitan OCR. Si tu PDF fue creado digitalmente (exportado desde Word, "Imprimir a PDF" de Chrome, etc.), el texto ya está incrustado y es seleccionable. Usa la herramienta PDF a Texto en su lugar — es más rápida y precisa porque lee el texto directamente en vez de adivinarlo a partir de patrones de píxeles.