當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python爬取豆瓣图书top250_python3 爬虫学习：爬取豆瓣读书Top250（四）

發(fā)布時(shí)間：2023/12/16 python 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬取豆瓣图书top250_python3 爬虫学习：爬取豆瓣读书Top250（四）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在python3 爬蟲(chóng)學(xué)習(xí)：爬取豆瓣讀書(shū)Top250(三)中，我們已經(jīng)成功獲取了數(shù)據(jù)，但是我們只拿到了一頁(yè)的數(shù)據(jù)，今天，咱們繼續(xù)補(bǔ)充程序。

url分析

咱們先來(lái)分析一下，豆瓣讀書(shū)top250的url有沒(méi)有什么規(guī)律，以便我們進(jìn)行代碼的編輯呢？

第 1 頁(yè)：https://book.douban.com/top250

第 2 頁(yè)：https://book.douban.com/top250?start=25

第 3 頁(yè)：https://book.douban.com/top250?start=50

...

第 10 頁(yè)：https://book.douban.com/top250?start=225

從上面的url可以看到，每一次，url變化的部分都是top250之后，新加了一個(gè)?start=[num]，這里的num每一頁(yè)增加了25，代表是每一頁(yè)的數(shù)據(jù)量是25，我們發(fā)現(xiàn)了一個(gè)url和頁(yè)數(shù)的規(guī)律性：(頁(yè)數(shù) - 1)*25 = num

于是url可以寫(xiě)成這樣：

url = 'https://book.douban.com/top250?start={}'

for i in range(10):

num = i * 25

urls = url.format(num)

print(urls)

#輸出：

https://book.douban.com/top250?start=0

https://book.douban.com/top250?start=25

https://book.douban.com/top250?start=50

https://book.douban.com/top250?start=75

https://book.douban.com/top250?start=100

https://book.douban.com/top250?start=125

https://book.douban.com/top250?start=150

https://book.douban.com/top250?start=175

https://book.douban.com/top250?start=200

https://book.douban.com/top250?start=225

很好，現(xiàn)在我們已經(jīng)拿到了所有目標(biāo)頁(yè)的url地址，下一步，就是把程序做一下補(bǔ)充啦：

# 導(dǎo)入requests、BeautifulSoup、time庫(kù)

import requests

from bs4 import BeautifulSoup

import time

# 類(lèi)屬性初始值的設(shè)置(初始化方法)

def book_spider(url):

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'

}

# 以get方法獲取網(wǎng)頁(yè)數(shù)據(jù)并將response對(duì)象存入res

res = requests.get(url, headers = headers)

# 建立BeautifulSoup對(duì)象

bs = BeautifulSoup(res.text, 'html.parser')

# 提取所有class = 'pl2'的div標(biāo)簽里面的a標(biāo)簽

items = bs.select('div.pl2 a')

# 提取所有class = 'pl'的p標(biāo)簽

authors = bs.select('p.pl')

# 提取所有class = 'inq'的span標(biāo)簽

abstract = bs.select('span.inq')

# 使用zip函數(shù)，遍歷多個(gè)列表

for i, j, k in zip(items, authors, abstract):

# 字符串格式化，使用\n換行

print('書(shū)名：{}\n鏈接：{}\n{}\n推薦語(yǔ)：{}'.format(i['title'], i['href'], j.text, k.text))

# 打印一行分隔符，讓輸出結(jié)果更美觀

print('--------------------------------')

url = 'https://book.douban.com/top250?start={}'

urls = [url.format(num * 25) for num in range(10)]

for url in urls:

book_spider(url) #把重新生成的url傳入函數(shù)中，并調(diào)用

time.sleep(2) #每爬一個(gè)鏈接，休息2秒鐘

輸出結(jié)果

總結(jié)

以上是生活随笔為你收集整理的python爬取豆瓣图书top250_python3 爬虫学习：爬取豆瓣读书Top250（四）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Captain Flint and Cr
下一篇：入职半年后，我升到了管理岗

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python爬取豆瓣图书top250_python3 爬虫学习：爬取豆瓣读书Top250（四）

總結(jié)