鲲鹏数据开源库python_google_translator介绍
生活随笔
收集整理的這篇文章主要介紹了
鲲鹏数据开源库python_google_translator介绍
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
2019獨角獸企業重金招聘Python工程師標準>>>
?原文作者:西安鯤之鵬
原文鏈接:http://www.site-digger.com/html/articles/20130812/68.html
關于KPBroswer:
KPBroswer是一個基于QtWebKit的最小化瀏覽器程序,通過被第三方程序調用, 能實現對復雜頁面加載后數據(例如,復雜Ajax、數據加密)的抓取,支持屏幕截圖。 KP是“鯤鵬”二字的拼音首字母。 項目主頁: https://bitbucket.org/qi/kpbroswer/ 適用場景: 頁面數據動態加載(例如,Ajax過程過于復雜,分析成本太高); 數據加密(客戶端JS解密,解密算法難以獲取或難以用其它語言實現); 屏幕截圖; 跨平臺的抓取方案; 依賴庫: PyQt4? Ubuntu下安裝方法:sudo apt-get install python-qt4 Windows下安裝方法:在這里下載二進制安裝包直接安裝http://www.riverbankcomputing.co.uk/software/pyqt/download/ 調用方法: 若在Linux終端下運行,需要安裝Xvfb。Ubuntu下安裝方法:apt-get install xvfb xfonts-base xfonts-75dpi xfonts-100dpi xfonts-wqy 調用舉例(Linux):xvfb-run python KPBroswer.py http://www.site-digger.com --flags=redice --output="page.html" --screenshot="sitedigger.jpg" 調用舉例(Windows):python KPBroswer.py http://www.site-digger.com --flags=redice --output="page.html" --screenshot="sitedigger.jpg" Usage: KPBroswer.py <URL> [options] Options: -h, --help ? ? ? ? ? ?show this help message and exit -p PROXY, --proxy=PROXY Proxy to use. -t TIMEOUT, --timeout=TIMEOUT The timeout time of loading page. -f FLAGS, --flags=FLAGS Flags need to wait for. Semicolon can be used as a eperator. -w WAIT_TIMEOUT, --wait_timeout=WAIT_TIMEOUT The timeout time of waitting for flags. -g, --gui ? ? ? ? ? ? Whether to show the broswer GUI. -o OUTPUT, --output=OUTPUT The output filename. -s SCREENSHOT, --screenshot=SCREENSHOT If the value is not empty, take a screenshot and save it here. 注意: Linux下不要忘記安裝相關字體庫,否則截圖中的漢字將會是亂碼,如下圖site-digger-font-problem.jpg所示。 安裝后,就正常了,如圖site-digger.jpg所示。 示例: sample.py文件為一個Python以外部程序方式調用KPBroswer.py的示例,其它語言的調用可以參考其實現。 特別說明:該文章為西安鯤之鵬的原創文章 ,你除了可以發表評論外,還可以轉載到你的網站或博客,但是請保留源地址,謝謝!!(尊重他人勞動,你我共同努力)轉載于:https://my.oschina.net/webscraping/blog/531907
總結
以上是生活随笔為你收集整理的鲲鹏数据开源库python_google_translator介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 解决复制虚拟机时候网络不从eth0开始问
- 下一篇: AJAX 简单讲解