PDF เป็น Word และ OCR: แยกข้อความที่แก้ไขได้ด้วยวิธีที่ชาญฉลาด

PDF เป็น Word ฟังดูเรียบง่าย แต่ PDF ก็ไม่ได้เหมือนกันทั้งหมด PDF ดิจิทัลที่ส่งออกจาก Word มีข้อความที่เลือกได้ PDF ที่สแกนคือชุดรูปภาพ เครื่องมือเบราว์เซอร์จะต้องตรวจสอบว่าคุณมีกรณีใดและเรียกใช้ OCR หรือไม่ก็ได้ — คู่มือนี้จะอธิบายทั้งสองเส้นทาง

PDF แบบข้อความเทียบกับ PDF ที่สแกน

เปิด PDF แล้วลองเลือกประโยค หากข้อความไฮไลต์อย่างชัดเจน การแยกสามารถอ่านอักขระที่เข้ารหัสได้ — ปิดการใช้งาน OCR เพื่อความรวดเร็ว หากการเลือกวาดกล่องสีน้ำเงินทั่วทั้งหน้าหรือไม่มีอะไรเกิดขึ้น คุณอาจมีรูปภาพ — เปิดใช้งาน OCR

PDF แบบผสม (ปกดิจิทัล ไฟล์แนบที่สแกน) อาจจำเป็นต้องแยกด้วยตนเองเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

OCR ทำงานอย่างไรในเบราว์เซอร์

Tesseract.js วิเคราะห์รูปภาพหน้าและเดาอักขระตามโมเดลภาษา มันทำงานในพื้นที่แต่ใช้ CPU มาก เลือกภาษาหลักของเอกสาร (อังกฤษ จีน ญี่ปุ่น ฯลฯ) บนเครื่องมือที่รองรับการเลือกภาษา OCR

สแกน OCR ที่มีความละเอียดสูงกว่า (300 DPI) ดีกว่าภาพถ่ายในโทรศัพท์ที่ถ่ายในมุมเอียงภายใต้แสงสีเหลือง

เหตุใดเลย์เอาต์จึงไม่ตรงกันอย่างสมบูรณ์

PDF เก็บตำแหน่งที่แน่นอน Word ใช้เค้าโครงโฟลว์ ตัวแปลงจะแมปย่อหน้าและส่วนหัว แต่จะปล่อยแถบด้านข้าง เชิงอรรถ และตารางตารางที่ซับซ้อนออกไป ควรจัดรูปแบบคอลัมน์ใหม่ แทรกรูปภาพอีกครั้ง และแก้ไขระดับส่วนหัวหลังจากส่งออก

สำหรับการอ้างอิงย่อหน้า PDF เป็น TXT อาจเร็วกว่า Word สำหรับการแก้ไขสัญญา งบประมาณ เวลาสำหรับการล้างข้อมูลด้วยตนเอง

การปรับปรุงความแม่นยำของ OCR

สแกนขอบเรียบ ครอบตัด เพิ่มคอนทราสต์ และหมุนหน้าให้ตั้งตรงก่อนแปลง สำหรับเอกสารสองภาษา ให้รันสองครั้งด้วยภาษา OCR ที่แตกต่างกัน หากจำเป็น และรวมด้วยตนเอง

การเขียนด้วยลายมือ แสตมป์ และฟอนต์ตกแต่งมักจะล้มเหลว — OCR มีไว้สำหรับข้อความที่พิมพ์ ไม่ใช่ลายเซ็น

คำแนะนำขั้นตอนการทำงาน

1) ลองแยกข้อความโดยไม่มี OCR ก่อน 2) เปิดใช้งาน OCR สำหรับการสแกน พิสูจน์อักษรใน Word 3) ใช้ PDF เป็น TXT เมื่อคุณต้องการเพียงคำเท่านั้น 4) ใช้ PDF เป็นรูปภาพหากคุณต้องการกราฟิกระดับหน้า 5) สำหรับ PDF ทางกฎหมายสำหรับการเก็บถาวร ให้คง PDF ต้นฉบับไว้ไม่เปลี่ยนแปลง และถือว่าเอาต์พุต Word เป็นแบบร่าง

อย่าถือว่าเอาท์พุต OCR นั้นเหมือนกันตามกฎหมายกับการสแกนที่เซ็นชื่อโดยไม่มีการตรวจสอบจากเจ้าหน้าที่