生活随笔
收集整理的這篇文章主要介紹了
python爬取豆瓣电影TOP250
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
一個比較經(jīng)典的例子,爬取的是這個頁面https://movie.douban.com/top250
使用正則表達式,將電影名稱,上映年份,評分,評價人數(shù)這些信息提取出來,并保存到一個csv文件中,代碼如下:
import requests
import re
import csvheaders
= {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36"
}
for i
in range(10):url
= "https://movie.douban.com/top250?start={}&filter=".format(i
* 25)resp
= requests
.get
(url
, headers
=headers
)page_content
= resp
.textobj
= re
.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)'r'</span>.*?<p class="">.*?<br>(?P<year>.*?) .*?<span 'r'class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'r'<span>(?P<num>.*?)人評價</span>', re
.S
)result
= obj
.finditer
(page_content
)f
= open("data2.csv", mode
="a", newline
='')csvwriter
= csv
.writer
(f
)for it
in result
:dic
= it
.groupdict
() dic
['year'] = dic
['year'].strip
() csvwriter
.writerow
(dic
.values
())f
.close
() print(i
, "頁over")resp
.close
()
運行結(jié)果:
data2.csv文件中的數(shù)據(jù),共250條:
總結(jié)
以上是生活随笔為你收集整理的python爬取豆瓣电影TOP250的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。