[其它] - 博客园积分算法探讨
來源:http://www.cnblogs.com/weidagang2046/archive/2009/07/31/1535902.html
?
今天在dudu的《博客園FAQ》上看到了博客積分算法規(guī)則。因?yàn)橥瑯邮歉慊ヂ?lián)網(wǎng)的,平時(shí)工作也涉及到用戶積分算法的設(shè)計(jì),所以特把此問題拿出來分析探討。初衷只是純學(xué)術(shù)的研究探討,并不構(gòu)成對(duì)博客園積分機(jī)制的意見建議。
我們先來看看現(xiàn)行規(guī)則,用公式表示為:
-------------------------------------------------------------------
BlogScore = BeRead + 10 * BeComment + 50 * Comment
BlogScore:博客積分
BeRead:個(gè)人博客所有隨筆和文章的閱讀數(shù)之和
BeComment:個(gè)人博客被評(píng)論總數(shù)
Comment: 個(gè)人所發(fā)表的評(píng)論總數(shù)
-------------------------------------------------------------------
我從這個(gè)公式看出了幾個(gè)問題:
1.發(fā)表隨筆和文章本身不會(huì)為博客帶來積分,但不發(fā)表文章,BeRead和BeCommented將永遠(yuǎn)為0
2.發(fā)表一篇評(píng)論可以直接加50分
3.被閱讀10次等于被評(píng)論一次的積分
?
首頁問題
這里,首先聯(lián)想到是討論已久的“首頁問題”,上首頁對(duì)文章有什么直接的好處呢?通常首頁文章的BeRead值會(huì)比較大,一般1000左右。值得注意的是不同類型和質(zhì)量的文章其BeRead值差距并不是太大,根據(jù)我的經(jīng)驗(yàn)每篇首頁文章的閱讀數(shù)大約在500~3000這個(gè)區(qū)間范圍,最多相差5,6倍。而BeComment值則相差很大,少的有幾乎為0的,普通文章4,5次,多的則達(dá)可到300次以上,相差上百倍,如果再乘上系數(shù)10,就更為可觀。
文章質(zhì)量問題
因 此,那些吸引眼球、引起爭議的文章會(huì)為博客帶來巨大的積分。我們常常看到首頁上一些非技術(shù)文章門庭若市;一些高質(zhì)量的技術(shù)文章,反而只有寥寥幾篇回復(fù)。 一個(gè)好的技術(shù)博客,應(yīng)該鼓勵(lì)產(chǎn)生高質(zhì)量的原創(chuàng)技術(shù)文章,這才是它的核心價(jià)值,而并不是僅僅是像門戶網(wǎng)站一樣賺取人氣。那么應(yīng)如何區(qū)分文章的質(zhì)量呢?當(dāng)然, 最直接的方式就是讀者反饋。現(xiàn)在博客園已經(jīng)有了【推薦】和【反對(duì)】的反饋功能,不妨利用起來作為積分計(jì)算的參考依據(jù)。有了這個(gè)參數(shù),就能區(qū)別對(duì)待不同質(zhì)量 的文章,讓高質(zhì)量的文章為作者帶來更多的積分。至于具體實(shí)現(xiàn),我還沒有一個(gè)很好的模型,只能隨便想個(gè)簡單的,比如定義文章質(zhì)量因子:
QualityFactor = log(max(1, 推薦數(shù) - 反對(duì)數(shù)))
在計(jì)算積分的時(shí)候可以考慮把評(píng)論數(shù)或閱讀數(shù)乘上這個(gè)質(zhì)量因子。
PersonRank vs PageRank
在互聯(lián)網(wǎng)上,如果一個(gè)網(wǎng)頁被很多其它網(wǎng)頁所鏈接,說明它受到普遍的承認(rèn)和信賴,那么它的排名就高,這就是Google PageRank算法的核心思想。PageRank把鏈接視為源對(duì)目標(biāo)網(wǎng)頁的投票,而這張票的分量是和源網(wǎng)頁自身的PageRank相關(guān)的。下面是一個(gè)簡單的示意圖:
這在博客園內(nèi)有類似的情況,博客園有MVP,有排名靠前的著名人物,他們的文章常常會(huì)得到大家的追捧,而普通新手的影響力則一時(shí)難以與他們相比。這就說明, 博客或者說作者,與互聯(lián)網(wǎng)的網(wǎng)頁有類似之處,是有Rank之分的,當(dāng)然這個(gè)Rank是動(dòng)態(tài)變化的。如果把評(píng)論看成是對(duì)文章的投票,而這張票的分量與投票者自身的影響力相關(guān),這就可以產(chǎn)生類似PageRank的PersonRank。假設(shè)園內(nèi)某MVP評(píng)論某篇文章,一般來講他的評(píng)論應(yīng)該比普通評(píng)論更有分量。當(dāng)然,這里還應(yīng)該考慮正面評(píng)價(jià)和負(fù)面評(píng)價(jià)因素,如果他持推薦意見,應(yīng)該加分,如果他持反對(duì)意見則不應(yīng)該加分。
馬太效應(yīng)
什么是馬太效應(yīng)?舉個(gè)熱門新聞算法的例子,越是熱門新聞大家越是去點(diǎn),越去點(diǎn)它就越熱門,形成一個(gè)惡性循環(huán)。如果算法不好,熱門或許就會(huì)永遠(yuǎn)熱門下去。同樣的道理,在博客園里面,積分高的作者的文章越是熱門,越是熱門他的積分就越來越高。那么應(yīng)該如何避免馬太效應(yīng),鼓勵(lì)新人輩出呢?常見的方式有兩種,一是衰減機(jī)制,比如,一月前的文章產(chǎn)生的積分應(yīng)該乘上一個(gè)衰減系數(shù)(比如0.9),從而使近一個(gè)月的文章產(chǎn)生的積分所占權(quán)重變大,這樣就避免成名后坐吃山空的現(xiàn)象,真實(shí)地反映出作者近段時(shí)間的貢獻(xiàn);二是log函數(shù),對(duì)點(diǎn)擊數(shù)和評(píng)論數(shù)取log以后再作為積分,讓積分的增長變得平滑,避免極端大的分值出現(xiàn)。
一時(shí)興起,隨便想了這么多,拋磚引玉,大家見仁見智!再次聲明,本文是純學(xué)術(shù)探討,不構(gòu)成對(duì)博客園的任何改動(dòng)建議。
轉(zhuǎn)載于:https://www.cnblogs.com/hcbin/archive/2010/04/20/1716370.html
總結(jié)
以上是生活随笔為你收集整理的[其它] - 博客园积分算法探讨的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在中WebBrowser加载Excel后
- 下一篇: fatal error C1083: C