python爬取豆瓣图书top250_python3 爬虫学习:爬取豆瓣读书Top250(四)
在python3 爬蟲(chóng)學(xué)習(xí):爬取豆瓣讀書(shū)Top250(三)中,我們已經(jīng)成功獲取了數(shù)據(jù),但是我們只拿到了一頁(yè)的數(shù)據(jù),今天,咱們繼續(xù)補(bǔ)充程序。
url分析
咱們先來(lái)分析一下,豆瓣讀書(shū)top250的url有沒(méi)有什么規(guī)律,以便我們進(jìn)行代碼的編輯呢?
第 1 頁(yè):https://book.douban.com/top250
第 2 頁(yè):https://book.douban.com/top250?start=25
第 3 頁(yè):https://book.douban.com/top250?start=50
...
第 10 頁(yè):https://book.douban.com/top250?start=225
從上面的url可以看到,每一次,url變化的部分都是top250之后,新加了一個(gè)?start=[num],這里的num每一頁(yè)增加了25,代表是每一頁(yè)的數(shù)據(jù)量是25,我們發(fā)現(xiàn)了一個(gè)url和頁(yè)數(shù)的規(guī)律性:(頁(yè)數(shù) - 1)*25 = num
于是url可以寫(xiě)成這樣:
url = 'https://book.douban.com/top250?start={}'
for i in range(10):
num = i * 25
urls = url.format(num)
print(urls)
#輸出:
https://book.douban.com/top250?start=0
https://book.douban.com/top250?start=25
https://book.douban.com/top250?start=50
https://book.douban.com/top250?start=75
https://book.douban.com/top250?start=100
https://book.douban.com/top250?start=125
https://book.douban.com/top250?start=150
https://book.douban.com/top250?start=175
https://book.douban.com/top250?start=200
https://book.douban.com/top250?start=225
很好,現(xiàn)在我們已經(jīng)拿到了所有目標(biāo)頁(yè)的url地址,下一步,就是把程序做一下補(bǔ)充啦:
# 導(dǎo)入requests、BeautifulSoup、time庫(kù)
import requests
from bs4 import BeautifulSoup
import time
# 類(lèi)屬性初始值的設(shè)置(初始化方法)
def book_spider(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'
}
# 以get方法獲取網(wǎng)頁(yè)數(shù)據(jù)并將response對(duì)象存入res
res = requests.get(url, headers = headers)
# 建立BeautifulSoup對(duì)象
bs = BeautifulSoup(res.text, 'html.parser')
# 提取所有class = 'pl2'的div標(biāo)簽里面的a標(biāo)簽
items = bs.select('div.pl2 a')
# 提取所有class = 'pl'的p標(biāo)簽
authors = bs.select('p.pl')
# 提取所有class = 'inq'的span標(biāo)簽
abstract = bs.select('span.inq')
# 使用zip函數(shù),遍歷多個(gè)列表
for i, j, k in zip(items, authors, abstract):
# 字符串格式化,使用\n換行
print('書(shū)名:{}\n鏈接:{}\n{}\n推薦語(yǔ):{}'.format(i['title'], i['href'], j.text, k.text))
# 打印一行分隔符,讓輸出結(jié)果更美觀
print('--------------------------------')
url = 'https://book.douban.com/top250?start={}'
urls = [url.format(num * 25) for num in range(10)]
for url in urls:
book_spider(url) #把重新生成的url傳入函數(shù)中,并調(diào)用
time.sleep(2) #每爬一個(gè)鏈接,休息2秒鐘
輸出結(jié)果
總結(jié)
以上是生活随笔為你收集整理的python爬取豆瓣图书top250_python3 爬虫学习:爬取豆瓣读书Top250(四)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
 
                            
                        - 上一篇: Captain Flint and Cr
- 下一篇: 入职半年后,我升到了管理岗
