บทความนี้ จะกล่าวเฉพาะเอกสารภาษาอังกฤษครับ
ตัวอย่างเอกสาร
ในภาพ เป็นหน้าจอของโปรแกรม Adobe Reader เปิดเอกสาร PDF ทั่วไป (ในภาพตัวอย่างเอกสารชื่อว่า can convert to text.pdf)
(Download เอกสารประกอบ 1)
ในเอกสาร ประกอบด้วยข้อความอยู่หลายบรรทัด
หากต้องการนำข้อความเหล่านี้ไปใช้ในงานเอกสารต่อ เช่น นำไปพิมพ์ในรายงาน ก็สามารถทำได้
โดยการ
สั่งคำสั่ง File ต่อด้วยคำสั่ง Save As...
และ ที่คำสั่งสุดท้ายคือ Text...
โปรแกรมก็จะถามให้ save file ลงที่ใด ชื่ออะไร
ในภาพ ผมบันทึกในชื่อเดิม คือ can convert to text
และได้ file type หรือ ชนิดไฟล์เป็น txt (text)
ต่อมา ก็ลองเปิดไฟล์ดังกล่าว
ในภาพ เป็นโปรแกรม Notepad
ก็พบว่าเป็นเอกสารที่มีข้อความ หรือตัวอักษรอยู่ ซึ่งเราสามารถนำไปใช้งานต่อได้ครับ
แต่ก็มี PDF บางตัวที่ทำแบบนี้ไม่ได้
(Download เอกสารประกอบ 2)
ตามภาพประกอบ
เป็นไฟล์ชื่อ can not conver to text.pdf
ในเอกสารก็มีข้อความ แต่ดูเหมือนว่าจะเป็นภาพจากการใช้เครื่อง scanner
ทดลอง save เป็น text ดู เหมือนที่ทำไปก่อนหน้านี้
แล้วทดลองเปิด text ไฟล์ดังกล่าว
ก็พบว่า เป็นเอกสารเปล่า ไม่มีข้อความใด ๆ
ก็มาถึงตัวช่วยละครับ
เราจะใช้โปรแกรมช่วยแปลงภาพข้อความ หรือ OCR (Optical character recognition) ครับ
โปรแกรมชื่อ Free OCR (link ไป website)
ใช้แปลงภาพถ่ายจาก scanner หรือ PDF ให้อ่านข้อความในภาพเป็น text file ได้
หน้าตา website ครับ และ link (1) ไป download โปรแกรม
ทดลองใช้งานเลยครับ
เมื่อโปรแกรมทำงาน ที่แถบเครื่องมือ (tool bar) มีปุ่มคำสั่งชื่อ Open PDF
* ก็ click คำสั่งนี้เพื่อเปิดเอกสาร PDF กันเลย
แล้วก็เปิดเอกสารที่ไม่สามารถ save เป็น Text ได้
ใช้ mouse สร้างกรอบสี่เหลี่ยมเส้นประ (1) รอบข้อความที่ต้องการแปลงให้เป็นตัวอักษรแล้ว click สั่งปุ่มเครื่องมือชื่อ Start OCR (2)
ก็จะสั่งให้โปรแกรมทำงาน และ แปลภาพข้อความ ให้เป็นข้อความแสดงทางด้านขวามือ (3)
เพียงเท่านี้ ก็แก้ปัญหาดังกล่าวไปได้ จากภาพข้อความที่ไม่สามารถ save เป็นข้อความได้ ก็ได้ข้อความในภาพที่ต้องการ
ที่แถบเครื่องมือตรงกลาง ก็มีทางเลือกอยู่หลายทางครับ เช่น
Save Text
copy all Text to Clipboard
และ Export text into Microsoft Word
เท่านี้คงพอเห็นภาพนะครับ กับงานชิ้นนี้