哪吒票房逼近40亿,用python爬取哪吒短评分析
生活随笔
收集整理的這篇文章主要介紹了
哪吒票房逼近40亿,用python爬取哪吒短评分析
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
目錄
- 前言
- 分析
- 具體步驟
- 登錄
- 爬取與存儲
- 可視化分析
- 結(jié)語
前言
- 暑期檔電影慘淡,但隨著哪吒爆紅開拓了新局面。這也是國產(chǎn)動畫的首次爆紅。在哪吒剛出,筆者以為最多10億就算不錯的了。沒想過僅過了幾天就破了10億。接著頭條又突破20億--------11天27億,勢頭增長依然很猛!又破了30億!
那筆者就很好奇人們是怎么看待這一步電影的呢?
- 哪吒?我想哪吒是陪伴過不少人成長的一部動畫片吧,也是記憶中算得上最好看的動畫片之一了。里面的哪吒、小豬熊、申公豹、石雞娘娘令人歷歷在目。我們或許都被哪吒的敢打敢為、勇敢和天真所感動!
分析
- 對于這么一部爆紅的動畫電影。我想簡單分析人們對哪吒動畫電影的評價(jià)狀況。那么就選擇貓眼票房或者豆瓣的短評爬下來分析了。
- step1:打開豆瓣主頁哪吒短評的界面。F12打開調(diào)試點(diǎn)擊頁面下一頁會發(fā)現(xiàn)有ajax數(shù)據(jù)交互。
- step2:分析這個接口,發(fā)現(xiàn)無加密。返回的是json套html需要解析處理一下。用網(wǎng)頁訪問這個接口。但是你會發(fā)現(xiàn)一旦你訪問頁面靠后它就拒絕訪問了。提示你要登錄再訪問。
- step3:思路很清晰了。只需要登錄—>訪問接口爬取存儲—>可視化分析即可
具體步驟
登錄
- 賬密登錄fiddler抓包發(fā)現(xiàn)可以直接發(fā)送請求登錄。大膽猜測沒有cookie限制。登陸后即可訪問接口!
- 程序方面只需要根據(jù)參數(shù)進(jìn)行模擬即可,登錄完將cookie保存。后面的訪問都帶著這個cookie即可。
登錄部分代碼為:
import requests import urllib.parse from http import cookiejarurl='https://accounts.douban.com/j/mobile/login/basic' header={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36', 'Referer': 'https://accounts.douban.com/passport/login_popup?login_source=anony','Origin': 'https://accounts.douban.com','content-Type':'application/x-www-form-urlencoded','x-requested-with':'XMLHttpRequest','accept':'application/json','accept-encoding':'gzip, deflate, br','accept-language':'zh-CN,zh;q=0.9','connection': 'keep-alive','Host': 'accounts.douban.com'} data={'ck':'','name':'','password':'','remember':'false','ticket':'' } def login(username,password):global datadata['name']=usernamedata['password']=passworddata=urllib.parse.urlencode(data)print(data)req=requests.post(url,headers=header,data=data,verify=False)cookies = requests.utils.dict_from_cookiejar(req.cookies)print(cookies)return cookies爬取與存儲
- 通過api的規(guī)則拼湊,抓下來的數(shù)據(jù)。我們主要需要評價(jià)星,和評論語句。
- 使用Beautifulsoup進(jìn)行dom解析。使用xldr、xldw將數(shù)據(jù)寫入excel文件中。一個頁面20條。頁面url增加直到出現(xiàn)異常為止停止。
主要代碼實(shí)現(xiàn):
- 對于爬取的結(jié)過一覽
可視化分析
- 我們要對評分進(jìn)行統(tǒng)計(jì)、詞頻統(tǒng)計(jì)。還有就是生成詞云展示。而對應(yīng)的就是matplotlib、WordCloud庫。
評分統(tǒng)計(jì):
- 對于評分統(tǒng)計(jì),使用數(shù)組將上面的1,2,3,4,5,五個分?jǐn)?shù)段讀取時候?qū)懭?#xff0c;根據(jù)數(shù)據(jù)畫出餅狀圖分析即可。
- 從上圖也可以知道,對于評分,大部分還是分布在5分和4分的,占比分別為41.2%和33.4%.而2分和1分時非常少!這足以說明這部片絕對不是爛片或者爭議不是很大。一部片不可能滿足所有人。存在不滿意的都在三分但依然能夠接受。所以從評分分布來看哪吒還是廣受支持的!
詞頻統(tǒng)計(jì):
- 根據(jù)jieba分詞。統(tǒng)計(jì)前面熱詞出現(xiàn)的次數(shù)。反應(yīng)觀眾共鳴點(diǎn)。
- 這里感謝樓下評論給的建議,有些詞語無關(guān)性較大,我將它剔除去噪(例如這個,那個,這是等等)。
- 可以看的出國產(chǎn)、大圣(大圣歸來對比).這些熱門話題直戳心頭!
詞云展示:
- 相比詞頻,詞云無法看到詞語的準(zhǔn)確數(shù)量,但是可以看的到更多詞匯、人們的評價(jià)。筆者這里通過count()類(map)對分詞結(jié)果進(jìn)行詞頻統(tǒng)計(jì)。統(tǒng)計(jì)完的詞頻排序前300個詞展示在2個詞云上。這些詞語的出現(xiàn)頻率均大于10.所以還是有所參考價(jià)值額。
- 可以從詞云簡單分析出大家還是很滿意的,充滿濃濃封神色彩、動畫風(fēng)格、不屈的爭斗、國產(chǎn)的激動!在票房直逼30億的情況下!我、要去看了。
代碼
- 順便給出可視化分析部分代碼:
結(jié)語
- 如果自己需要可以到github下載項(xiàng)目完整代碼。當(dāng)然,只需要更改部分即可同理分析其他電影。
- 項(xiàng)目依然有不夠完善地方,如影評,對不同評分的平均不同處理、其他不同角度如評論用戶性別、地點(diǎn)等等等等,這里不做延申。
- 如果對后端、爬蟲、數(shù)據(jù)結(jié)構(gòu)算法等感性趣歡迎關(guān)注我的個人公眾號交流(回復(fù) 爬蟲 即可獲得學(xué)習(xí)資料一份!):bigsai 持續(xù)輸出分享!
總結(jié)
以上是生活随笔為你收集整理的哪吒票房逼近40亿,用python爬取哪吒短评分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据结构于算法—线性表
- 下一篇: 数据结构与算法—一文多图搞懂双链表