python爬取虾米音乐_Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!
最近兩天,我被朋友圈的五月天粉絲(五迷)瘋狂刷屏,“五月天永遠(yuǎn)陪你到20歲”“演唱會(huì)即視感”,這些字眼讓我恨不得馬上奔到電影院打卡。
作為五迷,我是滿懷激情地在寫這篇文章呀(美容覺什么的先不談了,五月天要緊)。
今天我就用Python爬一爬蝦米音樂(lè),半分析半安利地給大家介紹一下這個(gè)充滿有趣靈魂的組合。
數(shù)據(jù)獲取
本次爬蟲主要目的是爬取五月天所有歌曲的信息,信息維度當(dāng)然是越多越好啦。
直接搜索關(guān)鍵詞“五月天”,可能會(huì)出現(xiàn)歌名是“五月天”的信息,或者別人翻唱“cover五月天”的內(nèi)容,搜索范圍變大,多抓取了不少無(wú)用信息。
所以我以“五月天-藝人-專輯信息-歌曲id-歌曲詳情”這個(gè)路徑進(jìn)行數(shù)據(jù)爬取。我發(fā)現(xiàn),無(wú)論是專輯信息、歌曲list還是歌曲詳情,都存在于非常漂亮的JSON格式里面:
本來(lái)可以美滋滋“唰唰唰”地批量下載。但是!URL里面有一個(gè)s的參數(shù),我暫時(shí)找不到變化的規(guī)律(摔!)因?yàn)橼s時(shí)間,就另辟蹊徑,用相對(duì)麻煩一點(diǎn)的beautiful soup庫(kù)來(lái)解析網(wǎng)頁(yè)源代碼的內(nèi)容,過(guò)程很坎坷,這就是我為什么五月天大電影上映凌晨還在寫這篇文章的原因……
而且,爬蟲的時(shí)候我還遇到兩個(gè)坑:
1.兩天前能運(yùn)行的代碼,在今天居然解析不到所需的內(nèi)容了,因?yàn)榕廊〉臇|西內(nèi)容格式發(fā)生了很大變化。難道是我正巧趕上了他們內(nèi)部修改源代碼的節(jié)點(diǎn)嘛?無(wú)從查證。
2.兩天前還在顯示的歌曲詳情(播放量和收藏量),今天一看全都變成0了,每首歌都這樣。我讓別的朋友用其他電腦查看,也是沒信息的。“檢查”了一下,Play Count這些參數(shù)直接變成Null了…?
最后得到三個(gè)文件,分別是專輯信息(50張)、歌曲列表(620首)和歌曲詳情(620首),主要是通過(guò)專輯字符和歌曲id進(jìn)行相關(guān)聯(lián),具體字段如下:專輯信息(專輯種類、ID、封面、名字、藝術(shù)家、收藏?cái)?shù)、語(yǔ)言、播放數(shù)、推薦數(shù)、歌曲數(shù)量、專輯字符、評(píng)分、評(píng)分人數(shù)、發(fā)布時(shí)間)
歌曲列表(專輯名字、歌曲名字、ID、時(shí)長(zhǎng)、播放量)
歌曲詳情(歌曲名字、別名、歌曲ID、時(shí)長(zhǎng)、播放次數(shù)、作詞、作曲、編曲、專輯名字、歌詞、熱門第一條評(píng)論、評(píng)論點(diǎn)贊數(shù))
PPPs:不成熟的代碼我一定會(huì)在一周之內(nèi)更新到這兒(https://github.com/PengYura)
數(shù)據(jù)清洗
國(guó)際慣例:Excel畫圖表+Python畫詞云,(自認(rèn)為)簡(jiǎn)單粗暴又高效。
數(shù)據(jù)分析
截止目前在蝦米音樂(lè)平臺(tái)關(guān)于五月天的一共有50張專輯,其中“正正經(jīng)經(jīng)”的專輯有9張(“錄音室專輯”),“單曲”類專輯有20張,歌曲數(shù)量在1到6首不等。
判斷作品的優(yōu)劣,最明顯快速的方式就是查看大眾對(duì)其的評(píng)分,我們來(lái)瞧瞧這50張專輯的評(píng)分分布?:
可以看到,將近一半的的專輯評(píng)分在9.8-10.0之間,只有3張專輯評(píng)分沒超過(guò)9分。說(shuō)明大眾對(duì)其認(rèn)可度還是相當(dāng)高的。
五月天曾說(shuō)過(guò)只會(huì)出10張專輯,隨著2016年《自傳》的發(fā)布,現(xiàn)在已經(jīng)有9張跟大家見面啦。我們先看看這9張的數(shù)據(jù)情況。
按照發(fā)布時(shí)間順序排列:
按照時(shí)間間隔可以看到,emmm,他們發(fā)專輯的間隔從1年慢慢變成2年、3年和5年,我很有理由懷疑下一張專輯可能在5年之后。
再看到發(fā)布時(shí)間的月份,4張專輯都是在7月份,其余的分布在10月、11月和12月,這…...難道是某種癥(拖延癥?)的體現(xiàn)?
據(jù)說(shuō)五月天只會(huì)出10張專輯,我非常期待第10張,我也非常害怕10張之后再無(wú)新作品(那我的人生還有什么盼頭)。
從評(píng)論收藏?cái)?shù)量來(lái)看,最新專輯《自傳》的播放數(shù)達(dá)7億多次,收藏?cái)?shù)量將近30萬(wàn),推薦人數(shù)也是處于遙遙領(lǐng)先的地位。其次是《后青春的詩(shī)》和《第二人生》,分別占據(jù)了播放數(shù)和推薦數(shù)的第二。
但是我覺得很多別的老歌也都是很好聽的呀,傳唱度甚至更高。我們也可以在下面的歌曲詳情分析中略窺一二?。
根據(jù)專輯信息里面的歌曲ID(字符串形式和數(shù)字形式皆可),我們可以順藤摸瓜爬取歌曲的信息(https://www.xiami.com/song/歌曲id),一共得到620首,除去沒歌詞的純音樂(lè)歌曲55首,還剩565首。
這565首歌中,時(shí)長(zhǎng)最短的是《輕功(京片子版)》,只有25秒。但是不管怎么樣,也是李大哥的《貝貝》的6倍多了(逃)。
最長(zhǎng)的是《出頭天/憨人(live)》,有12分20秒。歌曲整體時(shí)間分布還是符合正態(tài)分布的,75%的歌曲時(shí)長(zhǎng)都在4到7分鐘之間。
神奇的是,平均每首歌的播放數(shù)量也是如此的趨勢(shì):時(shí)長(zhǎng)為5分鐘的歌曲平均每首歌播放次數(shù)有219w+。所以呀,寫歌還是寫5分鐘多的,也許這樣更容易火呢~
再看看播放數(shù)量TOP20的歌曲:
雖然《自傳》專輯的歌曲擁有45%(9首)的占榜率,但是耳熟能詳?shù)摹锻蝗缓孟肽恪啡匀灰?.5億次的播放量穩(wěn)居TOP1。
這首歌有沒有讓你想起你的某位故人?
前面提到了專輯種類有許多,什么錄音室專輯啦,現(xiàn)場(chǎng)專輯啦,精選集啦。里面有很多歌曲是一樣的,只是版本不一樣。
去重之后發(fā)現(xiàn)還剩177首歌。我們從歌曲的創(chuàng)作內(nèi)容來(lái)看看五月天的歌到底有什么特點(diǎn)。
每首歌都要經(jīng)歷作詞、作曲和編曲的過(guò)程。在這177首歌里面,主唱阿信參加了139次作詞、100次作曲,我說(shuō)一句阿信是創(chuàng)作小王子沒人反對(duì)吧!
編曲方面,68%的歌曲都是由五月天整個(gè)團(tuán)隊(duì)完成的,還有31首歌是有其他人參與合作的,合作次數(shù)最高的是周恒毅(8次)。
為歌詞做個(gè)詞云,我發(fā)現(xiàn)了五月天為什么總是吸引大批五好青年的原因:胸懷“世界”,心中充滿”愛“,敢“想”敢“笑”,不懼“人生”和“回憶”,勇敢懷揣著“夢(mèng)”想。試問(wèn)誰(shuí)聽了這些歌曲還能安然地繼續(xù)做“咸魚”呢?
關(guān)于歌曲評(píng)論,我只簡(jiǎn)單爬取了每首歌的第一條熱門評(píng)論和點(diǎn)贊數(shù),你猜怎么著?點(diǎn)贊數(shù)最高的3條內(nèi)容,其中兩條內(nèi)容迷之接近:
Ok,我承認(rèn),我就是為了聽五月天而下載蝦米的,膚淺而熱烈。
文章開頭提到了,五月天最近的演唱會(huì)紀(jì)實(shí)大電影《五月天人生無(wú)限公司》在昨天上映啦。
這部電影記錄了五月天從2017年3月18日到2019年1月6日,415萬(wàn)歌迷穿過(guò)55座城市陪伴打卡的122場(chǎng)演唱會(huì)。我因?yàn)榉N種原因還沒去打卡這部電影。但是,我還是忍不住去豆瓣看了大家的評(píng)論。
截止目前豆瓣評(píng)分8.9分,65%的觀眾給這部電影打了滿分!作為400萬(wàn)群演之一,我覺得我很驕傲!
最后的最后,一場(chǎng)生活一場(chǎng)五月天,加入五月天永遠(yuǎn)不會(huì)太遲讓我們一起邁向80歲?
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的python爬取虾米音乐_Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 乌鲁木齐爱地安澜铂寓产权年限多少年?
- 下一篇: python打包脚本_py2exe打包p