Todo

วันอังคารที่ 21 กุมภาพันธ์ พ.ศ. 2555

save PDF เป็น text file และโปรแกรม OCR

เอกสาร PDF สามารถแปลงเป็นเอกสารข้อความหรือ text file ได้
บทความนี้ จะกล่าวเฉพาะเอกสารภาษาอังกฤษครับ

ตัวอย่างเอกสาร
ในภาพ เป็นหน้าจอของโปรแกรม Adobe Reader เปิดเอกสาร PDF ทั่วไป (ในภาพตัวอย่างเอกสารชื่อว่า can convert to text.pdf)
(Download เอกสารประกอบ 1)
ในเอกสาร ประกอบด้วยข้อความอยู่หลายบรรทัด
หากต้องการนำข้อความเหล่านี้ไปใช้ในงานเอกสารต่อ เช่น นำไปพิมพ์ในรายงาน ก็สามารถทำได้
โดยการ
สั่งคำสั่ง File ต่อด้วยคำสั่ง Save As...
และ ที่คำสั่งสุดท้ายคือ Text...
โปรแกรมก็จะถามให้ save file ลงที่ใด ชื่ออะไร
ในภาพ ผมบันทึกในชื่อเดิม คือ can convert to text
และได้ file type หรือ ชนิดไฟล์เป็น txt  (text)

ต่อมา ก็ลองเปิดไฟล์ดังกล่าว
ในภาพ เป็นโปรแกรม Notepad
ก็พบว่าเป็นเอกสารที่มีข้อความ หรือตัวอักษรอยู่ ซึ่งเราสามารถนำไปใช้งานต่อได้ครับ

แต่ก็มี PDF บางตัวที่ทำแบบนี้ไม่ได้
(Download เอกสารประกอบ 2)
ตามภาพประกอบ
เป็นไฟล์ชื่อ can not conver to text.pdf
ในเอกสารก็มีข้อความ แต่ดูเหมือนว่าจะเป็นภาพจากการใช้เครื่อง scanner
ทดลอง save เป็น text ดู เหมือนที่ทำไปก่อนหน้านี้


แล้วทดลองเปิด text ไฟล์ดังกล่าว
ก็พบว่า เป็นเอกสารเปล่า ไม่มีข้อความใด ๆ

ก็มาถึงตัวช่วยละครับ
เราจะใช้โปรแกรมช่วยแปลงภาพข้อความ หรือ OCR (Optical character recognition) ครับ

โปรแกรมชื่อ Free OCR (link ไป website)
ใช้แปลงภาพถ่ายจาก scanner หรือ PDF ให้อ่านข้อความในภาพเป็น text file ได้

หน้าตา website ครับ และ link (1) ไป download โปรแกรม


ทดลองใช้งานเลยครับ
เมื่อโปรแกรมทำงาน ที่แถบเครื่องมือ (tool bar) มีปุ่มคำสั่งชื่อ Open PDF
* ก็ click คำสั่งนี้เพื่อเปิดเอกสาร PDF กันเลย
แล้วก็เปิดเอกสารที่ไม่สามารถ save เป็น Text ได้
ดังตัวอย่างภาพล่างครับ


ใช้ mouse สร้างกรอบสี่เหลี่ยมเส้นประ (1) รอบข้อความที่ต้องการแปลงให้เป็นตัวอักษร
แล้ว click สั่งปุ่มเครื่องมือชื่อ Start OCR (2)
ก็จะสั่งให้โปรแกรมทำงาน และ แปลภาพข้อความ ให้เป็นข้อความแสดงทางด้านขวามือ (3)

เพียงเท่านี้ ก็แก้ปัญหาดังกล่าวไปได้ จากภาพข้อความที่ไม่สามารถ save เป็นข้อความได้ ก็ได้ข้อความในภาพที่ต้องการ

ที่แถบเครื่องมือตรงกลาง ก็มีทางเลือกอยู่หลายทางครับ เช่น
Save Text

copy all Text to Clipboard
และ Export text into Microsoft Word
เท่านี้คงพอเห็นภาพนะครับ กับงานชิ้นนี้

วันจันทร์ที่ 13 กุมภาพันธ์ พ.ศ. 2555

Do not track

track หรือการแกะรอย หรือ สะกดรอย
ถ้าอ่านจากหน้า web ของ firefox เนื้อหาก็ตามนี้ครับ
พอสรุปได้ว่า website ส่วนใหญ่จะรวบรวมพฤติกรรมการใช้ Net ได้แก่ web ที่เราไป สิ่งของที่เราชอบดู ชอบซื้อในแต่ละ web ที่เราเข้าชม
และนำไปใช้โฆษณาสินค้า หรือ บริการ ในหน้า web นั่น ๆ ให้ตรงกับความต้องการของเรา
หากเราไม่ต้องการให้มีการแกะรอย หรือ สะกดรอยตามนี้ ก็สามารถกำหนดค่าใน firefox ได้ครับ

ส่วน website ต่าง ๆ จะทำหรือไม่ทำ เป็นเรื่องของการสมัครใจครับ แต่อย่างน้อยเราก็บอกพวกเขาแล้วว่า อย่ามาแกะรอยฉันนะ

เริ่มตั้งค่า
click ที่คำสั่ง Tools (เครื่องมือ)
ต่อที่คำสั่ง Options (ทางเลือก)
ไปต่อที่ privacy (ความเป็นส่วนตัว)
ในหัวเรื่อง Tracking
check เลือกช่อง Tell websites I do not want to be tracked

เพียงเท่านี้เองครับ

วันพฤหัสบดีที่ 9 กุมภาพันธ์ พ.ศ. 2555

การ download โปรแกรมจาก Gmail

โปรแกรมส่วนใหญ่ใน blog นี้ ฝากเก็บไว้ที่ Google Docs
เมื่อไป download จะพบหน้าจอประมาณนี้ครับ
ให้ click ที่คำสั่ง File
 ต่อที่คำสั่ง download ล่างสุดครับ
 จะพบจอภาพนี้ (หรืออาจไม่พบกรณีไฟล์มีขนาดเล็กครับ)
ก็ให้ click ที่ำคำว่า download anyway ครับ
ก็จะเข้าถึงไฟล์พร้อม download ครับ

Google ปรับเปลี่ยนการเข้าถึงไฟล์ใน google doc อยู่บ่อยมากครับ จนผมเองก็สับสน

มีปัญหา ข้อเสนอแนะ รบกวนเมล์คุยกันได้ครับ



หากเป็นระบบเก่า จะเป็น

ในภาพเป็น file ขนาด 9 MB ถือว่าไม่ใหญ่
เมื่อ click ปุ่ม Download
การ download ก็จะเริ่มเลย
บางกรณีที่ไฟล์ใหญ่ เช่นในภาพขนาด 37 MB
เมื่อสั่ง download
จะพบจอภาพบอกว่า
Sorry, we are unable to scan this file for viruses.
เสียใจ เราไม่สามารถตรวจไวรัสในไฟล์นี้ได้
แต่ยังสามารถ download ได้อยู่นะครับ
ให้ click คำสั่ง Download anyway  (ยังไงก็จะ download)
ก็จะได้เช่นกันครับ