當前位置：首頁 > 编程语言 > python >内容正文

python

python豆瓣历史评分_Python实战-爬取豆瓣top250评分高于指定值的电影信息

發布時間：2023/12/4 python 22 豆豆

生活随笔收集整理的這篇文章主要介紹了 python豆瓣历史评分_Python实战-爬取豆瓣top250评分高于指定值的电影信息小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

思路

1. 要獲得怎么樣的數據

2. 找到數據來源

3. 模擬瀏覽器發送請求獲得數據

4. 處理數據，保存數據

第一步：

在這里數據是豆瓣top250中高于指定分數的電影信息

信息有：名稱，評分，格言

第二步：

數據在網頁html中，這里我使用xpath語法分析htm代碼提取數據即可

當然也有其它方法比如：找出頁面請求的數據包，抓包分析，找出數據來源

故猜測第k頁的url只需start為25*(k-1)

所以我們枚舉url，提取有效的數據。

第三步：

獲得網頁源碼是一般是發送get請求。故

制定請求頭

找到url

模擬瀏覽器發送數據def GetHelpfulElement(Html,socre):#根據html代碼獲得希望的element列表

Xpath=r'//div[@ class="item"]//div[@ class="star"]/span[2][text()>={}]/../../..'.format(socre)

HtmlElement=etree.HTML(Html)

return HtmlElement.xpath(Xpath)

def GetHtml(url):#根據url獲得html字符串

Headers={

"User - Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"

}

resp=requests.get(url,headers=Headers)

return resp.content.decode()

最后一步就是代碼了

數據保存在date文件。

mport requests

from lxml import etree

from pprint import pprint

import re

'''

目的:爬取豆瓣top250中評分高于指定值的電影名字，導演，演員信息，評分。

url="https://movie.douban.com/top250?start={}"25的增加，10次即可

針對每個html字符串用xpath語法進行處理

1.找出符合條件的element元素

2.對element元素進行信息提取成字典形式

3.把每一頁的信息整理成一個列表追加即可

'''

def GetHelpfulElement(Html,socre):#根據html代碼獲得希望的element列表

Xpath=r'//div[@ class="item"]//div[@ class="star"]/span[2][text()>={}]/../../..'.format(socre)

HtmlElement=etree.HTML(Html)

return HtmlElement.xpath(Xpath)

def GetHtml(url):#根據url獲得html字符串

Headers={

"User - Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"

}

resp=requests.get(url,headers=Headers)

return resp.content.decode()

def HandleList(Mylist):#處理xpath的獲得的列表返回第一個，否則返回None

return Mylist[0] if len(Mylist)!=0 else None

def ElementToDict(Element):#一個elemengt信息轉化為dict

ret={}

html=etree.tostring(Element,encoding="utf-8").decode()

Element=etree.HTML(html)#不知道為什么只有這樣，每次函數得到的信息才不同

RatingXpath=r'//span[@class="rating_num"]/text()'

TitleXpath=r'//a/span[@class="title"]/text()'

QuoteXpath=r'//span[@class="inq"]/text()'

ret['rating:num']=HandleList(Element.xpath(RatingXpath))

ret['title'] = HandleList(Element.xpath(TitleXpath))

ret['quote'] = HandleList(Element.xpath(QuoteXpath))

return ret

def ElementlistToDictlist(Elementlist):#element列表轉化為有用的dict列表

Mylist=[]

for i in Elementlist:

Mylist.append(ElementToDict(i))

return Mylist

def Save(Mydict):#保存一條信息

Keylist = ['title', 'rating:num', 'quote']

NameList = ['名稱', '評分', '格言']

with open('date.txt','a',encoding='utf-8') as fp:

for i in range(len(Keylist)):

fp.write(NameList[i])

fp.write(' : ')

fp.write(Mydict[Keylist[i]] if Mydict[Keylist[i]]!=None else " ")

fp.write('\n')

def run(score):#實現主要邏輯

TempUrl = r"https://movie.douban.com/top250?start={}"

Dictlist =[]

for numbers in range(10):

Url = TempUrl.format(numbers * 25)

ElementList = GetHelpfulElement(GetHtml(Url), score)

TempDictList= ElementlistToDictlist(ElementList)

global total

total+=len(TempDictList)

for i in TempDictList:

Save(i)

if __name__ == '__main__':

RatingNum=float(input("請輸入最低評分:"))

total=0

print("請稍等...")

run(RatingNum)

print("共有：",total,"個結果。")

總結

以上是生活随笔為你收集整理的python豆瓣历史评分_Python实战-爬取豆瓣top250评分高于指定值的电影信息的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：无聊直播大盘点无聊的直播
下一篇： Excel排序方法大全介绍电脑上如何排序

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python豆瓣历史评分_Python实战-爬取豆瓣top250评分高于指定值的电影信息

總結