2013年9月29日 星期日

使用 wkhtmltopdf 將網頁轉成 PDF檔

1. 先下載 wkhtmltopdf: http://code.google.com/p/wkhtmltopdf/
2. 再編輯一串文字檔, 每一行的內容為皆為想要抓取的 URL , 後面緊跟要存成的 PDF 檔名, 將此黨命名為 note.txt
3. note.txt 範例:
http://madalgo.au.dk/~jakobt/wkhtmltoxdoc/wkhtmltopdf-0.9.9-doc.html 0
... 1
以此類推
3. 用 python 寫個 batch 程式, 將上述連結 URL 一行一行轉成 PDF:
url2pdf.py
----------------------------
import os
ff=open('note.txt','rt')
while True:
str=ff.readline()
if not str: break
sss=os.popen('"C:\\Program Files (x86)\\wkhtmltopdf\\wkhtmltopdf" '+str.strip('\n')+'.pdf')
sss.read()
sss.close()
ff.close
-----------------------------
4. 將會獲得 0.pdf, 1.pdf, 2.pdf, ...