Todo

วันอังคารที่ 21 กุมภาพันธ์ พ.ศ. 2555

save PDF เป็น text file และโปรแกรม OCR

เอกสาร PDF สามารถแปลงเป็นเอกสารข้อความหรือ text file ได้
บทความนี้ จะกล่าวเฉพาะเอกสารภาษาอังกฤษครับ

ตัวอย่างเอกสาร
ในภาพ เป็นหน้าจอของโปรแกรม Adobe Reader เปิดเอกสาร PDF ทั่วไป (ในภาพตัวอย่างเอกสารชื่อว่า can convert to text.pdf)
(Download เอกสารประกอบ 1)
ในเอกสาร ประกอบด้วยข้อความอยู่หลายบรรทัด
หากต้องการนำข้อความเหล่านี้ไปใช้ในงานเอกสารต่อ เช่น นำไปพิมพ์ในรายงาน ก็สามารถทำได้
โดยการ
สั่งคำสั่ง File ต่อด้วยคำสั่ง Save As...
และ ที่คำสั่งสุดท้ายคือ Text...
โปรแกรมก็จะถามให้ save file ลงที่ใด ชื่ออะไร
ในภาพ ผมบันทึกในชื่อเดิม คือ can convert to text
และได้ file type หรือ ชนิดไฟล์เป็น txt  (text)

ต่อมา ก็ลองเปิดไฟล์ดังกล่าว
ในภาพ เป็นโปรแกรม Notepad
ก็พบว่าเป็นเอกสารที่มีข้อความ หรือตัวอักษรอยู่ ซึ่งเราสามารถนำไปใช้งานต่อได้ครับ

แต่ก็มี PDF บางตัวที่ทำแบบนี้ไม่ได้
(Download เอกสารประกอบ 2)
ตามภาพประกอบ
เป็นไฟล์ชื่อ can not conver to text.pdf
ในเอกสารก็มีข้อความ แต่ดูเหมือนว่าจะเป็นภาพจากการใช้เครื่อง scanner
ทดลอง save เป็น text ดู เหมือนที่ทำไปก่อนหน้านี้


แล้วทดลองเปิด text ไฟล์ดังกล่าว
ก็พบว่า เป็นเอกสารเปล่า ไม่มีข้อความใด ๆ

ก็มาถึงตัวช่วยละครับ
เราจะใช้โปรแกรมช่วยแปลงภาพข้อความ หรือ OCR (Optical character recognition) ครับ

โปรแกรมชื่อ Free OCR (link ไป website)
ใช้แปลงภาพถ่ายจาก scanner หรือ PDF ให้อ่านข้อความในภาพเป็น text file ได้

หน้าตา website ครับ และ link (1) ไป download โปรแกรม


ทดลองใช้งานเลยครับ
เมื่อโปรแกรมทำงาน ที่แถบเครื่องมือ (tool bar) มีปุ่มคำสั่งชื่อ Open PDF
* ก็ click คำสั่งนี้เพื่อเปิดเอกสาร PDF กันเลย
แล้วก็เปิดเอกสารที่ไม่สามารถ save เป็น Text ได้
ดังตัวอย่างภาพล่างครับ


ใช้ mouse สร้างกรอบสี่เหลี่ยมเส้นประ (1) รอบข้อความที่ต้องการแปลงให้เป็นตัวอักษร
แล้ว click สั่งปุ่มเครื่องมือชื่อ Start OCR (2)
ก็จะสั่งให้โปรแกรมทำงาน และ แปลภาพข้อความ ให้เป็นข้อความแสดงทางด้านขวามือ (3)

เพียงเท่านี้ ก็แก้ปัญหาดังกล่าวไปได้ จากภาพข้อความที่ไม่สามารถ save เป็นข้อความได้ ก็ได้ข้อความในภาพที่ต้องการ

ที่แถบเครื่องมือตรงกลาง ก็มีทางเลือกอยู่หลายทางครับ เช่น
Save Text

copy all Text to Clipboard
และ Export text into Microsoft Word
เท่านี้คงพอเห็นภาพนะครับ กับงานชิ้นนี้

3 ความคิดเห็น:

  1. ไม่ระบุชื่อ25 เมษายน 2556 เวลา 23:55

    ใช้กับภาษาไทยไม่ได้ครับ

    ตอบลบ
    คำตอบ
    1. สำหรับภาษาไทยคงเป็นอะไรที่น่าหนักใจครับ แม้แต่โปรแกรม OCR ของไทยเองก็ยังอ่านได้ผลออกมาไม่น่าประทับใจครับ

      ลบ