PDF в Word и OCR: разумное извлечение редактируемого текста

PDF в Word звучит просто, но не все PDF-файлы одинаковы. Цифровой PDF-файл, экспортированный из Word, содержит выбираемый текст; отсканированный PDF-файл представляет собой стопку изображений. Инструменты браузера должны определить, какой у вас случай, и при необходимости запустить OCR — в этом руководстве рассматриваются оба пути.

Текстовый PDF и отсканированный PDF

Откройте PDF-файл и попробуйте выбрать предложение. Если текст выделяется четко, при извлечении можно прочитать закодированные символы — для скорости отключите распознавание текста. Если при выделении на всей странице появляется синяя рамка или ничего не происходит, скорее всего, у вас есть изображения — включите OCR.

Для достижения наилучших результатов смешанные PDF-файлы (цифровая обложка, отсканированные вложения) могут потребовать разделения вручную.

Как работает OCR в браузере

Tesseract.js анализирует изображения страниц и угадывает символы для каждой языковой модели. Он работает локально, но требует много ресурсов процессора. Выберите основной язык документа (английский, китайский, японский и т. д.) в инструментах, поддерживающих выбор языка OCR.

Сканирование с более высоким разрешением (300 точек на дюйм) обеспечивает лучшее распознавание текста, чем фотографии с телефона, сделанные под перекошенными углами при желтом освещении.

Почему макет никогда не совпадает идеально

PDF хранит абсолютное позиционирование; Word использует потоковую компоновку. Конвертеры отображают абзацы и заголовки, но удаляют сложные боковые панели, сноски и точные сетки таблиц. После экспорта вам придется переформатировать столбцы, повторно вставить изображения и исправить уровни заголовков.

Для цитирования абзаца преобразование PDF в TXT может быть быстрее, чем Word. При редактировании контракта выделите время на очистку вручную.

Повышение точности оптического распознавания символов

Сканируйте страницы ровно, обрезайте границы, увеличивайте контрастность и поворачивайте страницы вертикально перед преобразованием. Для двуязычных документов при необходимости запустите дважды с разными языками оптического распознавания символов и объедините их вручную.

Рукописный ввод, штампы и декоративные шрифты обычно не работают — распознавание текста предназначено для печатного текста, а не для подписей.

Текстовый PDF и отсканированный PDF

Как работает OCR в браузере

Почему макет никогда не совпадает идеально

Повышение точности оптического распознавания символов

Рекомендации по рабочему процессу