[python](爬虫)如何使用正确的姿势欣赏知乎的“长得好看是怎样一种体验呢?”问答中的相片...
生活随笔
收集整理的這篇文章主要介紹了
[python](爬虫)如何使用正确的姿势欣赏知乎的“长得好看是怎样一种体验呢?”问答中的相片...
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
從在知乎關注了幾個大神,我發現我知乎的主頁畫風突變。經常會出現
***長得好看是怎樣一種體驗呢? 不用***,卻長得好看是一種怎樣的體驗? 什么樣***作為頭像? ...諸如此類的問答。點進去之后發現果然很不錯啊,大神果然是大神,關注的焦點就是不一樣。
看多了幾次之后,覺得太麻煩了。作為一個基佬,不,直男,其實并不關注中間的過程(文字)。其實就是喜歡看圖片而已,得想個法子方便快捷地瀏覽,不,是欣賞這些圖片。
下載圖片(第一版)
python果然是個好東西,簡單代碼就可以方便快捷地down下一個頁面中的圖片:
#coding=utf-8 import urllib import redef getHtml(url):page = urllib.urlopen(url)html = page.read()return htmldef getImg(html):reg = r'original="([0-9a-zA-Z:/._]+?)" data-actualsrc'imgre = re.compile(reg)imglist = re.findall(imgre,html)x = 0for imgurl in imglist:print imgurlsubreg = r'\.([a-z]+?$)'subre = re.compile(subreg)subs2 = re.findall(subre,imgurl)name = 'e://pics/%s.%s' % (x, subs2[0])urllib.urlretrieve(imgurl, name)x += 1def getPage(text):reg = r'data-pagesize="([0-9]+?)"'rec = re.compile(reg)list = re.findall(rec,text)return list[0]url = "https://www.zhihu.com/question/****" # 把問題url貼到這里 html = getHtml(url) getImg(html) print "page=%s" % getPage(html) print "done!"運行腳本
(好像畫風不太對啊)
怎么才幾張圖片,原文里面應該很多圖片的。
下載圖片(第二版)
調試一下可以發現,網頁并不是一次性加載出所有答案的。點擊網頁最底下的【更多】按鈕,服務端才會返回剩下的內容。那么腳本就需要修改一下了:
?
再次運行腳本
畫風終于對了,這個腳本順利地爬下了10頁中的所有圖片。
呃,我趕著去欣賞圖片去了,拜了個拜。
總結
以上是生活随笔為你收集整理的[python](爬虫)如何使用正确的姿势欣赏知乎的“长得好看是怎样一种体验呢?”问答中的相片...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GPU的前世今生
- 下一篇: 撩课-Web大前端每天5道面试题-Day