FileKit
返回博客
·5 分钟阅读

如何 OCR 识别扫描文档——从图片中提取文字

OCR 光学字符识别完整指南:什么是 OCR、如何使用浏览器 OCR 工具、提高识别精度的技巧,以及何时用 OCR 和何时用直接文字提取。

什么是 OCR?

OCR(光学字符识别)把图片中的文字转换为可选择、可搜索的真实文本。 如果你有扫描的合同、拍照的白板内容或聊天截图, OCR 可以提取其中的文字,让你复制、编辑、搜索和进一步处理。

如何对文档做 OCR

1. 浏览器在线 OCR

FileKit OCR 工具使用 Tesseract.js——一个编译为 WebAssembly 的开源 OCR 引擎—— 完全在浏览器中识别文字。支持英文、简体中文、日文以及中英混合识别。 拖入图片或扫描 PDF,选择语言,几秒钟即可获得提取的文字。

2. Google 文档

把扫描 PDF 或图片上传到 Google Drive, 右键 → 打开方式 → Google 文档。Google 会自动应用 OCR 并创建可编辑文档。 对简单排版效果不错,但复杂格式识别能力有限。

3. Adobe Acrobat

Acrobat 的“扫描和 OCR”功能在扫描页面上创建可搜索的文字层。 原始图像保持不变,同时文字变得可选择和可搜索。 最适合存档级别的处理质量。

提高 OCR 识别精度的技巧

  • 分辨率很重要。至少 150 DPI,最佳 300 DPI。手机拍的低分辨率文档照片通常识别效果差。
  • 对比度是关键。白底黑字效果最好。彩色背景、水印和低对比度文字会降低精度。
  • 摆正图片。歪斜或旋转的文字会混淆 OCR 引擎。 扫描或拍照前先把文档放正。
  • 选择正确的语言。始终选择文档的主要语言。 中英混合文档建议使用混合模式。

OCR vs 文字提取

并非所有 PDF 都需要 OCR。如果你的 PDF 是数字创建的(从 Word 导出、 Chrome 的“打印为 PDF”等),文字已经嵌入其中且可选择。 这种情况使用PDF 文字提取工具更好——它更快更准确,因为是直接读取文字而非从像素中猜测。