人间不值得?250000条数据分析李诞是不是被骂火的
導讀:有小伙伴說:“李誕是焦點人物,但那都是在罵他的”。看到這個筆者突然意識到,說著“人間不值得”的李誕《吐槽大會》開始聲名鵲起,一方面是入了娛樂圈已成明星,卻也飽受非議。
作為《吐槽大會》第三季和《奇葩說》第五季的關鍵人物,我們是不是可以進行情感分析,從愛奇藝、騰訊視頻數萬條的用戶評論里找出廣大觀眾眼中的李誕,以及主打辯論的奇葩說和以“吐槽文化”為切入點的《吐槽大會》的異同之處?
本文經授權轉自公眾號CSDN(ID:CSDNnews),作者羅昭成
01 如何進行情感分析?
文本情感分析,又稱為意見挖掘、傾向性分析等。簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。
奇葩說的評論信息表達了人們的各種情感色彩和情感傾向性,通過對他們進行分析來了解大眾輿論的看法。
在這里,我們使用“SnowNLP”進行分詞和情感分析。
02 奇葩說的情感分析數據
注:本文中使用的奇葩說數據是上篇文章爬取的數據,數據文件地址:
https://github.com/Pinned/ICanIBBData/blob/master/deal_data.db
先來看一下《奇葩說》的整體情感分析得分數據:
▲奇葩說情感分析
從上圖可以看出來,正向情感的評論數要多于負向評論的數據,可見觀眾朋友還是喜歡奇葩說的。
好多人都說李誕是在被人罵,所以筆者在此對評論中包含李誕的數據進行了過濾(作者注:這樣來看不一定準確,但也能從一個角度來看大體的數據情況),做了一下情感分析,先看圖:
▲有關李誕評論的情感分析
從這張圖可以看出來,得分 0.5 以下的評論要比 0.5 分的多得多。其實單看李誕的這張圖,對于負向情感評論是多是少沒有直觀的感受。于是,筆者又把剩下出現頻率比較高的薛教授與詹青云的情感評分畫了兩張圖,對比感受了一下:
▲薛教授評論情感分析
▲詹青云評論情感分析
通過這三張圖的對比,感受到不一樣的情感了嗎?薛教授和詹青云的正向情感要遠高于負向情感,而李誕的正向和負向兩類情感則處于趨同狀態。
詳細代碼為:
????conn?=?conn?=?sqlite3.connect("deal_data.db")
????conn.text_factory?=?str
????cursor?=?conn.cursor()
????likeStr?=?""
????for?i?in?range(0,?len(names)):
????????likeStr?=?likeStr?+?"?or?content?like?\"%"?+?names[i]?+?"%\"?"
????if?likeStr?==?"":
????????sql?=?"select?content?from?realData?where?content?!=?\"\"?"
????else:
????????sql?=?"select?content?from?realData?where?content?!=?\"\"?"?+?likeStr
????print?sql
????cursor.execute(sql)
????values?=?cursor.fetchall()
????sentimentslist?=?[]
????for?item?in?values:
????????content?=?item[0]
????????senValue?=?SnowNLP(content.decode("utf-8")).sentiments
????????sentimentslist.append(senValue)
????????print?content
????plt.hist(sentimentslist,?bins=np.arange(0,?1,?0.01),?facecolor="#4F8CD6")
????plt.xlabel("Sentiments?Probability")
????plt.ylabel("Quantity")
????plt.title("Analysis?of?Sentiments?for?"?+?title)
????plt.show()
????cursor.close()
????conn.close()
觀眾朋友對李誕的負面情感有些高,那對他的評論具體究竟呈現著什么樣的態勢?接下來我們按如下步驟進行具體分析:
將評論數據中包含李誕、李蛋、蛋蛋的數據單獨查出來;
使用 Jieba 對評論數據分詞;
使用 WordCloud 生成詞云分析數據生成詞云圖見下圖。
▲《奇葩說》評論李誕的數據詞云
從上面的關鍵詞中可以看出,觀眾對于李誕的情感詞云偏于負面,譬如“討厭”、“教養”、“禮貌”、“打斷”等。
03 吐槽大會的情感分析
1. 爬取騰訊評論數據
用 Chrome 打開騰訊視頻,打開 《吐槽大會》視頻播放,然后打開 Chrome 查看源代碼模式,在網絡請求里面搜索并過濾 comment。通過過濾拿到的請求地址中,你能拿到一個 videocommentid 的請求,里面有該期評論的 id。
本次筆者爬取了《吐槽大會》的三季數據,每一期的評論數據的 id 都是手動去獲取的。?
2. 數據分析
從所獲取的 18w+ 的評論數據中,包含李誕的數據條數有多少呢?直接使用 SQL 在數據庫中查找:
▲李誕評論數據條數
沒有想到的是,在這 18w 的數據中,居然只有 8000 多條數據。畢竟同樣是每一期人員都非常多的綜藝節目,在《奇葩說》5w 多條數據中就有 1w 多條與李誕相關,但結果到李誕成名的《吐槽大會》上卻遠遠不足,值得我們思考。
回歸正題,我們再來看一下,在每一期的評論數量:
在第一季第十期,也就是收官之作里關注度特別大,應該是有一次不錯的表現。
3. 情感分析
首先來看一下,全部評論數據的整體情感分析,可以看到,整體的正向情感要多于負向情感。
▲李誕所有數據的情感分析
再來看看所有評論中,評論詞云是怎么分布的。如下圖,可以看出,很多人都非常喜歡他。
▲吐槽大會-李誕詞云
再來看一下每一季的數據, 第一季的數據可以看出,正向情感要多于負向情感,更多的觀眾是喜歡他的。
▲李誕第一季數據
筆者也把第二季的數據跑出來,可以看出,正向情感與負向情感趨于持平,是不是表示,討厭他的觀眾數量在增多呢?
▲李誕第二季數據
最后,再來看一下,第三期的評論數據,從圖中可以看出,負向情感要多于正向情感的數據。
▲李誕第三季數據
從上面的情感數據可以看出,《吐槽大會》從第一季到現在的第三季,不喜歡李誕的觀眾數量變得越來越多。
04 結語
不過還是可以明顯對比出,在《吐槽大會》中,李誕要表現得更讓觀眾喜歡,而在《奇葩說》中,更多的觀眾是在罵他。雖然是一種不同的表現形式,至少說,他依舊是一個焦點人物,不論是好是壞,總歸是留在了用戶心中 —— 人間不值得。
本文經授權轉自公眾號CSDN(ID:CSDNnews),作者羅昭成
據統計,99%的大咖都完成了這個神操作
▼
更多精彩
在公眾號后臺對話框輸入以下關鍵詞
查看更多優質內容!
PPT?|?報告?|?讀書?|?書單
大數據?|?揭秘?|?人工智能?|?AI
Python?|?機器學習?|?深度學習?|?神經網絡
可視化?|?區塊鏈?|?干貨?|?數學
猜你想看
最全攻略:數據分析師必備Python編程基礎知識
王興:上天、入地、全球化,是互聯網下半場的三條路
輸在學歷的起跑線上?沒關系,10本書助你技能爆表升職加薪
2019升職加薪必備:你一定要修煉的產品思維
Q:?你會怎樣評價李誕?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯系:baiyu@hzbook.com
更多精彩,請在后臺點擊“歷史文章”查看
總結
以上是生活随笔為你收集整理的人间不值得?250000条数据分析李诞是不是被骂火的的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你跟大神程序员的差距,就在这8本内功心法
- 下一篇: 华为的数字化转型与数据治理