PDF 转 Word 与 OCR：聪明地提取可编辑文字

PDF 转 Word 听起来简单，但 PDF 并不相同：Word 导出的数字 PDF 有可选文字；扫描 PDF 是一叠图片。浏览器工具需判断情况并可选 OCR——本指南涵盖两条路径。

文字型 PDF 与扫描 PDF

打开 PDF 尝试选中一句话。若能正常高亮，可关闭 OCR 以加速。若整页被框选或无法选中，多为图片——请开启 OCR。

混合 PDF（数字封面+扫描附件）有时需先拆分再分别处理。

Tesseract.js 分析页面图像并按语言模型猜字，在本地运行但耗 CPU。请在支持的语言选项中选择文档主语言。

300 DPI 扫描比斜拍、黄灯下手机照片 OCR 效果好得多。

PDF 用绝对定位；Word 用流式排版。转换器映射段落与标题，但会丢失复杂侧栏、脚注和精确表格。导出后需手动调整分栏、插图和标题级别。

若只需引用一段，PDF 转 TXT 可能更快；编辑合同请预留排版时间。

扫平、裁边、提高对比度、扶正页面。双语文档可换语言各跑一次再手工合并。

手写、印章、艺术字常失败——OCR 针对印刷体，不针对签名。