用python做公众号网页_Python---微信公众号或网页自动导出
背景
從來沒有這么粉過一位公眾號作者,嗯。。。確切的說是女朋友那天和我說喜歡看一位公眾號的作者,然后覺得微信的機制很不好,每次都要翻啊翻,想想有個辦法能導(dǎo)出就好了。網(wǎng)上確實有人在做這件事,不過是收費的,具體是誰博主就不點名啦。額。。。我好想能做出來,話不多說,我先試為敬。
所以呢本文主要就是來說說,如何把自己喜歡的網(wǎng)頁導(dǎo)出成為pdf,自己喜歡的公眾號導(dǎo)出成pdf,讓自己隨時想看隨時看,不受微信的約束,不受各個網(wǎng)站流量的約束。
展示效果
項目地址
思路
其實微信這個平臺流量巨大,微信想怎么限制怎么限制,比如最近封殺抖音,還有和支付寶的戰(zhàn)爭。所以其實微信對于反爬,等一些功能做了比較好的限制。
正面突破也是可以,如何攻破微信的一項一項障礙,最終直接爬取。
本文的總體思路如下:
利用python webdriver庫來動態(tài)的滾動網(wǎng)頁,然后自動截圖,保存。
然后利用截圖進(jìn)行裁切,計算頁面大小,存為pdf
環(huán)境Python3
webdriver(安裝詳見:官網(wǎng)地址)
pillow圖片加載庫
pip install pillow
嗯。。。別的暫時還沒想起來
關(guān)鍵代碼截取
init_filelist()
#首先初始化webdirver
driver = webdriver.Chrome()
#設(shè)置輸出路徑
dir = './result'
for item in filelist:
try:
#獲取圖片路徑,標(biāo)題,以及輸出路徑
#自動滾動,并截圖保存
pic_path,title = save_url(driver, item, dir)
#開始合并我們剛剛截的所有圖
package_picture(pic_path, os.path.abspath(dir), title)
except Exception as e :
print(e)
save_url方法內(nèi)部主要步驟如下首先利用xpath找到微信公眾號標(biāo)題,"//div//h2[@class='rich_media_title']"
然后將標(biāo)題設(shè)置為文件名再然后自動滾動屏幕
保存每一次滾動屏幕的圖片
package_picture方法內(nèi)部主要步驟如下將剛剛保存的分散的圖片打包成為整體
存入./result文件夾內(nèi)
長圖轉(zhuǎn)為pdf
獲取到長圖了之后,那么接下來的工作就是轉(zhuǎn)換為pdf了
執(zhí)行以下命令
python crop.py
這個命令的目的是將剛剛我們的所有圖片做成一個個單獨的pdf,再次要感謝網(wǎng)友“TTyb”,
以下內(nèi)容參考了他的博客
寫在結(jié)尾
消失了幾個月的博主,今天好像回來了,嗯。。。感慨頗多。
希望以后不止分享逆向的東西,把博主的所見所聞一起分享給大家。
好玩的有趣的,各種各樣的。
是不是有的小伙伴是不是不愿意這樣呢,還是沒有呢。
看心情,看緣分啦。
佛系的博主
寫完博客轉(zhuǎn)眼已經(jīng)第二天啦。
2018.7.17
關(guān)于我
總結(jié)
以上是生活随笔為你收集整理的用python做公众号网页_Python---微信公众号或网页自动导出的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 荣耀猎人游戏本V700评测荣耀猎人游戏本
- 下一篇: 泛型方法的定义和使用_泛型( Gener