PDF'den Word'e ve OCR: düzenlenebilir metni akıllıca çıkarın

PDF'den Word'e geçiş kulağa basit geliyor ancak PDF'lerin hepsi aynı değil. Word'den dışa aktarılan dijital PDF seçilebilir metin içerir; taranmış bir PDF bir görüntü yığınıdır. Tarayıcı araçları hangi vakaya sahip olduğunuzu tespit etmeli ve isteğe bağlı olarak OCR'yi çalıştırmalıdır; bu kılavuz her iki yolu da kapsar.

Metin tabanlı PDF ve taranmış PDF

PDF'yi açın ve bir cümle seçmeyi deneyin. Metin temiz bir şekilde vurgulanırsa çıkarma işlemi kodlanmış karakterleri okuyabilir; hız için OCR'yi devre dışı bırakın. Seçim tüm sayfa boyunca mavi bir kutu çiziyorsa veya hiçbir şey olmuyorsa, muhtemelen resimleriniz vardır; OCR'yi etkinleştirin.

Karışık PDF'lerin (dijital kapak, taranmış ekler) en iyi sonuçları elde etmek için manuel olarak bölünmesi gerekebilir.

Tarayıcıda OCR nasıl çalışır

Tesseract.js sayfa resimlerini analiz eder ve dil modeline göre karakterleri tahmin eder. Yerel olarak çalışır ancak CPU yoğundur. OCR dili seçimini destekleyen araçlarda birincil belge dilini (İngilizce, Çince, Japonca vb.) seçin.

Daha yüksek çözünürlüklü taramalar (300 DPI) OCR'yi, sarı ışık altında çarpık açılarla çekilen telefon fotoğraflarından daha iyi tarar.

Düzen neden asla birebir uymaz

PDF mutlak konumlandırmayı saklar; Word akış düzenini kullanır. Dönüştürücüler paragrafları ve başlıkları eşler ancak karmaşık kenar çubuklarını, dipnotları ve hassas tablo ızgaralarını bırakır. Dışa aktarma sonrasında sütunları yeniden biçimlendirmeyi, görüntüleri yeniden eklemeyi ve başlık düzeylerini düzeltmeyi bekleyin.

Bir paragraftan alıntı yapmak için PDF'den TXT'ye dönüştürme, Word'den daha hızlı olabilir. Bir sözleşmeyi düzenlemek için, manuel temizlemeye ayrılan zamanı ayırın.

OCR doğruluğunu artırma

Dönüştürmeden önce düz tarayın, kenarlıkları kırpın, kontrastı artırın ve sayfaları dik olarak döndürün. İki dilli belgeler için gerekirse farklı OCR dilleriyle iki kez çalıştırın ve manuel olarak birleştirin.

El yazısı, damgalar ve dekoratif yazı tipleri rutin olarak başarısız oluyor; OCR, imzalar için değil, daktiloyla yazılmış metinler içindir.

İş akışı önerileri

1) Önce OCR olmadan metin çıkarmayı deneyin. 2) Taramalar için OCR'yi etkinleştirin; Word'de düzeltmeler yapın. 3) Yalnızca kelimelere ihtiyacınız olduğunda PDF'den TXT'ye kullanın. 4) Sayfa düzeyinde grafiklere ihtiyacınız varsa görüntülere PDF kullanın. 5) Arşivsel yasal PDF'ler için, orijinal PDF'yi değiştirmeden bırakın ve Word çıktısını taslak olarak değerlendirin.

İnsan incelemesi olmadan OCR çıktısının imzalı taramayla yasal olarak aynı olduğunu asla varsaymayın.