2013-11-21

translatePDF 簡體中文文字版PDF轉換為繁體中文PDF


translatePDF是一個能將簡體中文文字版的PDF轉換為繁體中文的軟體,本來想將VIM簡體中文的PDF轉成繁體中文,可是無法順利轉換
Font not translated: /F32 /KWSWHA+gbsnu66
Font not translated: /F49 /IFENFK+gbsnu30
Font not translated: /F48 /LWKBKD+gbsnu53
...more
原因如下: PDF 簡體/正體轉換 github 及 TODO
  • 處理更多不同類型中文編碼,比方 latex 產生的 pdf 目前都無法處理。PDF 放中文的方式有很多種,目前只能處理其中一種情況而已,只是許多所謂文字版的簡體 pdf 都是這種情況



經回報後以修正python print error

這裡特別做過記錄使用時遇到的一個問題:
python ./tpdfrw.py File "./tpdfrw.py", line 37 print sys.exc_info() ^ SyntaxError: invalid syntax
經由G+上的朋友+Xuetian Weng 指點:python2 的print可以用,print XXXX,python3 的 print要用,print(XXXX)。如果想要了解python2、python3的差異請看What's New In Python 3.0 — Python v3.0.1 documentation

安裝

For Ubuntu

目前沒用Ubuntu我只是照抄的。
需安裝:
pdfrw, opencc, pdftk, chardet, fontTools, 
droid-sans-fallback.ttf 
 
fontTools 可用 pip 安裝,其他可用 apt-get 安裝。

For Arch

yaourt -S opencc pdftk-bin python2-fonttools python-chardet python2-chardet python2-pdfrw

下載主程式

git clone https://github.com/tjwei/translatePDF.git
cd translatePDF
chmod +x ./tpdfrw.py

修複前面所說的Bug

vim ./tpdfrw.py
在檔案最上頭插入一行
#!/usr/bin/env python2

使用

./tpdfrw.py  --opencc-config zhs2zhtw_vp.ini --default-ttf /usr/share/fonts/wenquanyi/wqy-microhei/wqy-microhei.ttc input output
--opencc-config:OpenCC支持地區用詞轉換了
 --default-ttf 預設是用DroidSansFallback.ttf 要改用其它字型請用此參數

參考資料: