2013年1月31日 星期四

在 Ubuntu 中,將 pdf 轉為文字檔

在 Ubuntu 中,要將 pdf 轉為文字檔
當然首先要確定這個 pdf 檔是由文字檔轉成的,
若是由圖片檔轉出來的 pdf 檔是沒辦法轉為文字檔的(要用辨識的方法)
要知道是不是由文字檔轉出來的 pdf 檔:
  1. 由 火狐 或 Google Chrome 網頁(Google Doc)開啟,試試能否用滑鼠選取
  2. 用 FoxitReader 等軟體開啟,試試能否用滑鼠選取

====
 將 pdf 轉為文字檔

頁數較少時:
 
方法、用網頁開啟後,直接用滑鼠左鍵拖曳選取(一次可選數頁) →[Ctrl + C ]複製,貼到文件

頁數較多時: 
方法一、用〔文件檢視器〕開啟後 →〔編輯〕/全部選取 →[Ctrl + C ]複製,貼到文件
 
方法二、用 FoxitReader 開啟後 →〔編輯〕/全部選取 →[Ctrl + C ]複製,貼到文件 
 
方法三、用指令法:(若為直式文章或無法選取的文章,則用此法
  1. ubuntu 預設有安裝 poppler,若沒有裝,則到〔軟體管理員〕或〔Synaptic〕搜尋poppler,安裝
  2. 將下載的檔案複製到〔家目錄〕
  3. 開啟〔終端機〕
  4. 輸入指令 pdftotext 123.pdf 123.txt 或  pdftotext -raw 123.pdf 123.txt
方法四、安裝gPDFText
  1. 到synaptic
  2. 搜尋gPDFText,安裝
  3. 到〔附屬崖用程式〕,開啟 gPDFText ebook Editer
  4. 開啟 pdf 檔 →COPY →貼到文字編輯器上 →OK

沒有留言:

張貼留言