是的。图片在你的浏览器中本地处理，不会上传到任何服务器。

支持哪些语言？

OCR 引擎支持多种语言，包括英语、中文、日语、韩语、西班牙语、法语、德语等。

识别准确度如何？

取决于图片质量。清晰、高分辨率的图片可达 95% 以上准确率。模糊、旋转或低对比度的图片可能产生更多错误。

能 OCR 多页 PDF 吗？

可以。每页单独处理，所有页面提取的文本合并在输出中。

支持手写文字吗？

OCR 主要针对印刷体文字优化。手写文字识别率较低，取决于书写清晰度。

支持哪些图片格式？

支持 JPG、PNG、WebP、TIFF 等常见图片格式，以及扫描的 PDF 文件。

如何提高 OCR 准确率？

使用高分辨率、高对比度的图片。确保文字清晰、不倾斜。300 DPI 以上的扫描件效果最好。

输出格式是什么？

输出为纯文本。你可以复制到任何文本编辑器或文档中进一步编辑和格式化。

文字提取 (OCR) 测试版

文件始终留在你的设备上

FileKit — 免费的浏览器端文件工具。无需上传，无需注册。

识别语言

将文件拖到这里

或点击选择文件

单个文件最大 50.0 MB·支持格式：JPG · PNG · WebP · BMP · TIFF · PDF

你可能还需要

🔤

图片转文字

使用 OCR 从图片中提取文字——支持中文、英文和日文。

📝

PDF 提取文字

把 PDF 中的全部文字导出为 .txt

📑

图片合成 PDF

把 JPG、PNG、WebP 图片合成一个 PDF

OCR 工作原理

FileKit 使用 Tesseract.js（Tesseract OCR 引擎的 WebAssembly 移植版）在浏览器本地完成文字识别。语言模型会在首次使用时下载（英语约 4 MB），之后会缓存在本地——不会上传任何文件。为了获得最佳效果，请使用高对比度、文字清晰的图片，分辨率建议不低于 150 DPI。

了解 OCR 技术

什么是 OCR？

光学字符识别（OCR）是一种将文字图像——无论来自扫描文档、照片还是截图——转换为可被机器读取、可编辑文本的技术。其过程包括分析图像中的视觉图案、识别字符形状，并输出对应的文字。Tesseract.js 等现代 OCR 引擎使用经过训练的神经网络模型，能在多种语言和字体上实现高识别准确率。

什么时候需要 OCR？

数字化扫描文档——将纸质记录、收据和合同转换为可检索、可编辑的文本文件。
从截图中提取文字——从应用截图、错误信息或社交媒体帖子中提取文字，无需重新输入。
发票处理——从发票图像中提取供应商名称、金额和日期，用于会计流程。
学术研究——将印刷书籍或期刊中的段落数字化，便于引用和记笔记。
无障碍访问——将基于图像的内容转换为文字，供屏幕阅读器为视障用户处理。

OCR 的关键要点

多语言支持——借助训练好的模型，可识别英语、中文、日语、韩语及数十种其他语言的文字。
置信度评分——每个识别出的词都附带一个置信度百分比，帮你找出不确定的识别结果。
浏览器端处理——无需上传服务器。OCR 模型借助 WebAssembly 在你的浏览器中本地运行。
格式灵活——可接受 JPEG、PNG、BMP、TIFF 等常见图像格式作为输入。
复制与导出——提取出的文字可复制到剪贴板，或下载为纯文本文件。

获得更佳 OCR 效果的技巧

使用高分辨率图像

OCR 准确率在很大程度上取决于图像分辨率。300 DPI 或更高的图像效果最佳。用手机相机在一臂距离拍摄的照片通常已足够。

确保对比度良好

浅色背景上的深色文字效果最好。如果图像对比度不佳，可在运行 OCR 前尝试调整亮度和对比度。

选择正确的语言

OCR 模型与语言相关。选对语言能大幅提升准确率。对于多语言混排的文档，可按每种语言各运行一次 OCR。

校正歪斜的扫描件

如果扫描文档发生倾斜，请在 OCR 前将其校正。哪怕只是几度的歪斜，也可能让准确率下降 10–20%。

查看置信度评分

置信度评分较低（低于 70%）的词很可能识别有误。提取后请审阅并手动更正这些词。

OCR：横向对比

OCR 技术可通过多种平台获得。以下是基于浏览器的 OCR 与其他方案的对比。

Feature	FileKit	Desktop / Other
隐私	图像始终不离开你的浏览器	需上传至云端 OCR 服务
语言支持	借助 Tesseract.js 支持 60 多种语言	各不相同，部分需付费 API
准确率	对清晰、高分辨率的文档准确率高	商用 API 对噪点较多的输入略胜一筹
速度	取决于图像大小和设备性能	处理大批量时服务器端可能更快
费用	免费，无限次使用	Google Vision、AWS Textract 按页收费
可离线使用	首次下载模型后即可使用	需要联网

如何 OCR 识别文档

1
上传图片或扫描 PDF
拖放扫描文档、页面照片或截图。支持 JPG、PNG、WebP 和 PDF 格式。
2
选择识别语言
选择文档的主要语言：英文、简体中文、日文或中英混合。正确的语言选择能显著提高识别精度。
3
提取并复制文字
FileKit 在浏览器中运行 Tesseract.js（WebAssembly OCR 引擎）。识别出的文字显示在可编辑区域——复制或下载为 .txt 文件。

常见问题

隐私保障承诺

FileKit 使用 JavaScript 和 WebAssembly 在你的浏览器中直接处理每个文件。你的文档、图片和数据绝不会离开你的设备——没有服务器上传，没有云存储，也不需要注册账户。在浏览器中发生的一切，都留在浏览器中。

100% 本地浏览器处理
绝不上传到服务器
无需注册或登录
首次加载后支持离线使用