简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化
一、前言
最近寫得兩篇關(guān)于簡書的數(shù)據(jù)可視化文章:《簡書推薦作者風(fēng)云榜(爬取簡書app數(shù)據(jù))》、《我的簡書一月記:數(shù)據(jù)可視化》反響都還不錯,因而將繼續(xù)針對簡書進(jìn)行數(shù)據(jù)分析和可視化。鑒于此前爬取手機(jī)app效率較低,本次重新回歸網(wǎng)頁數(shù)據(jù)的爬取。
爬取的對象是:今日看點專題下的“熱門”文章數(shù)據(jù)。一篇文章被編輯收入“今日看點”,即意味著作品將立刻登上首頁,得到很好曝光,為更多用戶所閱讀和喜歡。而本專題“熱門”一欄里,收錄著簡書上至今為止最炙手可熱、獲贊數(shù)最多的文章,針對這部分?jǐn)?shù)據(jù)進(jìn)行研究和分析,可以得知哪類文章最受簡書用戶喜歡,哪些作者創(chuàng)作了“高質(zhì)量”的作品等信息。
二、數(shù)據(jù)獲取
上圖可知,目前今日看點收錄了148618篇文章, 共有30194人關(guān)注。原本想獲取所有的文章,但發(fā)現(xiàn)爬取到1900+篇時,就再也無法得到更多數(shù)據(jù),可能簡書方面限制和保護(hù)了數(shù)據(jù)。
但根據(jù)這1916篇文章獲贊數(shù)降序可知,排名第一的文章,獲贊數(shù)為:17076;排名最后的為488。由此可見,簡書上最熱門的文章應(yīng)該都已經(jīng)獲取到了(后來發(fā)現(xiàn)其實并沒有,僅是部分,臉疼),基于此后續(xù)研究可以繼續(xù)展開。
三、數(shù)據(jù)可視化
1、年度月份分布情況
首先,我們來看看,截止目前,這些簡書上最熱門的文章都發(fā)布在何年何月?作為一名來到簡書一個多月的小透明,一直不知道簡書是何時“橫空出世”的,@簡叔、@簡寶玉可否解答下。
由下圖可知,最早的熱門文章出現(xiàn)于2014年5月,是@CNFeat創(chuàng)作的《如何搭建一個獨立博客——簡明Github Pages與Hexo教程》一文。(間接知道了簡書起碼是在三年前就已經(jīng)存在了)。之后逐年遞增,猜測可能是新增用戶基數(shù)越來越多,平臺越來越為人所知,而且作品越來越好?所以熱門文章出現(xiàn)的越來越多。從2016年7月起,出現(xiàn)較大漲幅,并持續(xù)到2017年3月,每月熱門文章均在110篇以上。在今年的4月份起,持續(xù)四個月相對回落了許多。這部分不知道原因何在,難道是太熱了,大家創(chuàng)作欲望低迷?
2、24小時分布情況
接著看看發(fā)布時間情況,11點鐘文章最多,覺得蠻奇怪的,作為一只喜歡在晚上發(fā)布文章的小透明,原本覺得晚上才是創(chuàng)作的大好時光啊,11點鐘已經(jīng)屬于飯點,難道是上午潛心創(chuàng)作,一天之計在于晨,將當(dāng)天的寫作任務(wù)早早的完成,一身輕松?再是24小時都有人發(fā)布文章并成為熱點,可見鳥兒大了,什么林子都有啊。逃......
3、2017年熱門文章
看了那么多歷史的數(shù)據(jù),那么到底今年有哪些熱門文章?到底作為一名普通的作者,該如何寫出廣受好評的文章呢?
篩選下本年度按獲贊數(shù)降序的文章,如圖,簡單瀏覽下標(biāo)題,發(fā)現(xiàn)非常多設(shè)問的句式,想誘導(dǎo)人點擊閱讀,哪能不用“問號”呢!很多作者的經(jīng)驗分享,或者稱作“教做人”的文章?而偏技術(shù)性的文章幾乎沒有,當(dāng)然原因可能很多,個人也有個人的看法。不過對我來說,倒是可以努力寫寫數(shù)據(jù)分析和可視化的文章殺進(jìn)去,占得一席之地。橫空出世,石破天驚,一鳴驚人,@Deserts_X,決定就是你了!咱們年末熱門文章見!
4、閱讀數(shù)、喜歡數(shù)與評論數(shù)
一篇文章的熱門程度,直觀地體現(xiàn)在喜歡數(shù)和評論數(shù)里,當(dāng)然前提是有被大量閱讀。如圖可知,有一篇文章閱讀數(shù)遠(yuǎn)遠(yuǎn)高于所有的文章,那就是@簡叔的《簡友常見問題匯總》,作為簡書新手向的使用手冊,有此數(shù)據(jù),也屬正常,雖然不知簡叔有多少用戶,但86w+的閱讀量估計是前無古人后無來者了。
再將目光移動到這篇官方文章之外,首先就能看到第二梯度,20w+閱讀量的文章也有近十篇,也是非常難以企及的戰(zhàn)績,雖然其中好幾篇的獲贊數(shù)稍顯“平庸”,(手動滑稽)。
換個角度,再看一遍。局部放大,看不到那些討人厭的神級數(shù)據(jù)后,覺得神清氣爽多了,努力努力應(yīng)該還是有機(jī)會躋身其中的。
5、文章作者
有留心上文CSV截圖的,可以對這些文章都是誰寫的有了初步的了解。對所有作者進(jìn)行統(tǒng)計,文章數(shù)量靠前的每人貢獻(xiàn)的情況如下,也是牛逼壞了。
第一名屬于簡書一哥@彭小六,共收錄了106篇文章。看來分析簡書數(shù)據(jù)永遠(yuǎn)都避不開的一哥。
并列第二名的是@懷左同學(xué)和@韓大爺?shù)碾s貨鋪,均收錄了41篇文章。
所有799名作者都有一席之地,按照收錄文章數(shù)直觀的貢獻(xiàn)情況如下,最左邊和最上邊即為排名前十幾的作者情況:
切換成曲線圖,按降序排列,可見有一條貼近橫坐標(biāo),長長的曲線。大多數(shù)人無法貢獻(xiàn)熱門文章,能貢獻(xiàn)的人里大多數(shù)也只能有一兩篇驚艷之作。
799名作者中有84名為簽約作者,共貢獻(xiàn)625篇文章。不過不知道簡書現(xiàn)在到底有多少名簽約作者。單看此數(shù)據(jù),熱門文章里非簽約作者占比也還是蠻大。
其他715名為非簽約作者,共貢獻(xiàn)1291篇文章:
將這1916篇文章對應(yīng)的799名作者生成如下詞云,假如今日頭條想像簽走知乎300大V一樣來簽走簡書大V,大概可以參考此圖。逃......
單人貢獻(xiàn)5篇及以上熱門文章的,共有69名作者。
6、文章標(biāo)題
不知道有多少人覺得簡書的文章太過雞湯,或者不熟悉簡書的人,是否直接就認(rèn)為“簡書=雞湯”?那到底是不是這樣的呢,看看熱門文章都有哪些大概就能知道一二了。標(biāo)題的數(shù)據(jù)上文CSV也有不少了,此處將所有標(biāo)題直接丟一個在線詞云網(wǎng)站,看看都有哪些詞出現(xiàn)了:
什么、如何、書、英語、大學(xué)、推薦、自己、人、堅持、努力......這些詞所形成的語境,可以照見背后點贊的簡書用戶組成還是偏于年輕。雖然可能傷到一些人,但個人感覺一個不完全知道自己喜歡什么、有什么愛好、對學(xué)習(xí)和生活都沒有好的把控的人,或許更會汲汲于閱讀這些文章,當(dāng)然這可能是每個人成長中必須經(jīng)歷的過程,看這些文章可能也會有收獲,對自己有所指導(dǎo),但是否又有很多人其實只是點個贊、收藏下,該如何的生活依舊如何的生活,下次看到類似的文章,依舊點進(jìn)去,依舊退出來呢?
上面的詞云還是太過簡單粗暴,調(diào)用玻森NLP的API,獲取所有標(biāo)題的詞頻排名前100的關(guān)鍵詞,返回結(jié)果如下:
沒有了雜亂無章的文字后,在精簡的詞云里,更可以看出,出現(xiàn)最頻繁的詞有:你、干貨、寫作、英語、推薦、大學(xué)、努力、書、讀書、人生、堅持、方法......嗯。
四、小結(jié)
所有假如你是一名非簡書用戶,看到這些詞云和標(biāo)題,你覺得簡書是否等同于雞湯呢?又或者,你已經(jīng)是一名簡書用戶,日常看到的文章,首頁上呈現(xiàn)的文章,對你來說又意味著什么呢?
非引戰(zhàn),歡迎評論,共同探討想法。
總結(jié)
以上是生活随笔為你收集整理的简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。