用python来吐槽,真是太会玩啦
文 |?ssw
來源:Python 技術「ID: pythonall」
上回說到要吐槽軒逸,羅列完就沒管它了:
晚上無聊刷懂車帝,看到有位哥們開噴的帖子
反手就是一個贊。
正所謂,師出有名,吐槽它也得有理有據。
巧婦難為無米之炊,先收集論據!
爬軒逸車友圈
過程照舊,請參考Python指導你買車,第二彈, 修改scrapy幾處:
條件改為“最不滿意”
設置爬60頁
爬到符合“【最不滿意】”的內容130條:
http://ssw.fit/file/ 可查看內容
詞云
“異響,塑料,飄,車漆薄,噪音”等等詞語在車主的描述中反復出現,誰稱得上“罪魁禍首”?首當其沖的就是“車漆”
'''生成詞云''' import?jieba from?wordcloud?import?WordCloudtxt?=?''?#文本內容打開網頁復制即可:http://ssw.fit/file/軒逸最不滿意.txt words?=?jieba.lcut(txt)?????#精確分詞 newtxt?=?''.join(words)????#空格拼接 wordcloud?=?WordCloud(width?=?1200,height?=?1000,max_font_size?=?160,font_path="ZKTSongFXSFU.TTF").generate(newtxt) wordcloud.to_file('ciyun.png')經檢查,文本中車漆薄、車漆太薄、車漆是真的薄、車漆是薄、車漆比較薄、車漆確實薄、車漆方面也比較薄、車漆非常的薄、車漆有點薄等出現“車漆”的地方多達21處。
軒逸的第一個槽點很明顯了,簡而言之,用書法大家黃庭堅的如椽大筆來寫就兩字:
漆薄
此書法剛勁有力,力透紙背,尤其“漆薄”兩大字,妙到巔峰。
值得注意的是,漆薄并非最大槽點,我們繼續往下看。
某些字跡不夠清晰,更換字體重新生成詞云:
和動力相關的吐槽占據了頭條,最大槽點是它!
槽點排行榜
上圖還不夠明顯,繼續調整參數
max_font_size?=?160將最大字號放大,用"方正蘇新"字體重新生成詞云:
圖中的字越大,可認為文本中的相關描述越多,槽點越大
特別是“車漆薄”這種短詞語,詞云最容易體現。相比之下,“動力”可能被車主描述為“上坡干吼不走,提速是真慢”,詞云不易體現。
觀察圖片,根據文字大小尋找到關鍵詞:
動力、車漆、“隔音+噪音”、配置、定速巡航、異響、超車、飄
接下來統計它們在文本中出現的次數
import?codecs?#?作用:處理中文不亂碼 import?jieba?#?分詞 from?collections?import?Counter?#?計數def?make_word(txt):make_list?=?jieba.cut(txt)c?=?Counter()?#?對字典的增強for?i??in?make_list:if?len(i)?>=1?and?i!='\r\n':c[i]?=?c[i]?+1for?k,v?in?c.most_common(1000):if?k?in?['動力','車漆','隔音','噪音','配置','定速巡航','異響','超車','飄']:print(k,v)if?__name__?==?'__main__':with?codecs.open('x.txt','r','utf8')?as?f:txt?=?f.read()make_word(txt)得到槽點的出現次數,內容如下
通過pyecharts繪制柱狀圖
榜單顯示,“動力”32條穩居榜首,“車漆”緊隨其后,“噪音”表現亮眼屈居季軍,“配置低”憑借一貫的尿性竄入前四。“榜尾之爭”倒不激烈,叨陪末座的“飄”,大概是車身輕,跑快了容易飄,加上動力弱承受了不該承受的激情與速度,軒逸已難受控制,用小沈陽的話講,就是“軒逸,你咋又跑偏了捏?”。
軒逸說你這么吐槽我,太委屈了,就一無是處嗎?。
那咱們換個可愛一點的字體,給你個“真皮大沙發”:
定速巡航同樣被吐槽的多,頂配都減配,眾所周知,委系的作風一貫如此。
到這里就基本吐槽完了,作為一臺價格10w級以上的家用轎車,軒逸雷凌卡羅拉“馬路三大媽”同為日系,缺點如出一轍,動力弱雞、皮薄少餡安全差!真雞賊!
補充一點,詞云在處理中文時還需要指定中文字體(font_path參數),為豐富詞云圖片效果,可以下載一些字體
字體
下載一個叫“字加”的軟件
選擇喜歡的字體點擊紅框的地方,就會自動在C:\Windows\Fonts添加這種字體
打開自己電腦C:\Windows\Fonts
選擇字體右鍵復制,并將該字體文件與代碼存放在同一目錄下(或在字體文件名前增加完整路徑)
設置wordcloud的font_path參數為字體名
至此,運行腳本就可以看到各種字體的詞云圖片了
PS:Python技術交流群(技術交流、摸魚、白嫖課程為主)又不定時開放了,感興趣的朋友,可以在下方公號內回復:666,即可進入,一起?100?天計劃!
老規矩,醬友們還記得么,右下角的 “在看” 點一下,如果感覺文章內容不錯的話,記得分享朋友圈讓更多的人知道!
【神秘禮包獲取方式】
識別文末二維碼,回復:1024
總結
以上是生活随笔為你收集整理的用python来吐槽,真是太会玩啦的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 选择题
- 下一篇: vue使用echarts是,动态获取数据