PDF do Word i OCR: inteligentne wydobywanie edytowalnego tekstu

PDF do Worda brzmi prosto, ale nie wszystkie pliki PDF są takie same. Cyfrowy plik PDF wyeksportowany z programu Word zawiera tekst do zaznaczenia; zeskanowany plik PDF to stos obrazów. Narzędzia przeglądarki muszą wykryć, jaki masz przypadek i opcjonalnie uruchomić OCR — w tym przewodniku omówiono obie ścieżki.

PDF tekstowy a PDF ze skanu

Otwórz plik PDF i spróbuj wybrać zdanie. Jeśli tekst jest wyraźnie podświetlony, ekstrakcja może odczytać zakodowane znaki — wyłącz OCR, aby przyspieszyć. Jeśli zaznaczenie spowoduje narysowanie niebieskiego pola na całej stronie lub nic się nie stanie, prawdopodobnie masz obrazy — włącz OCR.

Mieszane pliki PDF (okładka cyfrowa, zeskanowane załączniki) mogą wymagać ręcznego podziału w celu uzyskania najlepszych wyników.

Jak działa OCR w przeglądarce

Tesseract.js analizuje obrazy stron i zgaduje znaki według modelu językowego. Działa lokalnie, ale intensywnie obciąża procesor. Wybierz podstawowy język dokumentu (angielski, chiński, japoński itp.) w narzędziach obsługujących wybór języka OCR.

Skany OCR w wyższej rozdzielczości (300 DPI) są lepsze niż zdjęcia wykonane telefonem pod kątem ukośnym w żółtym oświetleniu.

Dlaczego układ nigdy nie jest identyczny

PDF przechowuje pozycjonowanie bezwzględne; Program Word używa układu przepływu. Konwertery mapują akapity i nagłówki, ale usuwają złożone paski boczne, przypisy i precyzyjne siatki tabel. Spodziewaj się ponownego sformatowania kolumn, ponownego wstawienia obrazów i naprawienia poziomów nagłówków po wyeksportowaniu.

W przypadku cytowania akapitu format PDF do TXT może być szybszy niż program Word. Na edycję umowy przeznaczyć czas budżetowy na ręczne czyszczenie.

Poprawa dokładności OCR

Przed konwersją skanuj na płasko, przycinaj krawędzie, zwiększaj kontrast i obracaj strony pionowo. W przypadku dokumentów dwujęzycznych w razie potrzeby uruchom dwukrotnie różne języki OCR i połącz ręcznie.

Pismo odręczne, pieczątki i czcionki dekoracyjne zwykle zawodzą — rozpoznawanie OCR dotyczy tekstu pisanego na maszynie, a nie podpisów.

Zalecenia workflow

1) Spróbuj najpierw wyodrębnić tekst bez OCR. 2) Włącz OCR dla skanów; korekta w Wordzie. 3) Użyj formatu PDF do TXT, gdy potrzebujesz tylko słów. 4) Użyj formatu PDF do obrazów, jeśli potrzebujesz grafiki na poziomie strony. 5) W przypadku archiwalnych legalnych plików PDF zachowaj oryginalny plik PDF w niezmienionej postaci i traktuj dane wyjściowe programu Word jako wersję roboczą.

Nigdy nie zakładaj, że wynik OCR jest zgodny z prawem z podpisem skanu bez weryfikacji przez człowieka.