關(guān)注上方“數(shù)據(jù)挖掘工程師”,選擇星標(biāo),
關(guān)鍵時(shí)間,第一時(shí)間送達(dá)!
作者 | 雪山飛豬鏈接 |?https://www.cnblogs.com/chenqionghe/p/12301905.html編輯 | 深度學(xué)習(xí)這件小事本文僅作技術(shù)交流,如有侵權(quán),請(qǐng)聯(lián)系刪除
? ?? 算法分類連接分析:PageRank關(guān)聯(lián)分析:Apriori分類算法:C4.5,樸素貝葉斯,SVM,KNN,Adaboost,CART聚類算法:K-Means,EM
? ?? 一、PageRank當(dāng)一篇論文被引用的次數(shù)越多,證明這篇論文的影響力越大。一個(gè)網(wǎng)頁(yè)的入鏈越多,入鏈越優(yōu)質(zhì),網(wǎng)頁(yè)的質(zhì)量越高
原理 網(wǎng)頁(yè)影響力=阻尼影響力+所有入鏈集合頁(yè)面的加權(quán)影響力之和 一個(gè)網(wǎng)頁(yè)的影響力:所有入鏈的頁(yè)面的加權(quán)影響力之和
一個(gè)網(wǎng)頁(yè)對(duì)其他網(wǎng)頁(yè)的影響力貢獻(xiàn)為:自身影響力/出鏈數(shù)量
用戶并不都是按照跳轉(zhuǎn)鏈接的方式來(lái)上網(wǎng),還有其他的方式,比如直接輸入網(wǎng)址訪問(wèn),
所以需要設(shè)定阻尼因子,代表了用戶按照跳轉(zhuǎn)鏈接來(lái)上網(wǎng)的概率
比喻說(shuō)明 1、微博一個(gè)人的微博粉絲數(shù)不一定等于他的實(shí)際影響力,還需要看粉絲的質(zhì)量如何。如果是僵尸粉沒什么用,但如果是很多大V或者明星關(guān)注,影響力很高。2、店鋪的經(jīng)營(yíng)顧客比較多的店鋪質(zhì)量比較好,但是要看看顧客是不是托。3、興趣在感興趣的人或事身上投入了相對(duì)多的時(shí)間,對(duì)其相關(guān)的人事物也會(huì)投入一定的時(shí)間。那個(gè)人或事,被關(guān)注的越多,它的影響力/受眾也就越大。
關(guān)于阻尼因子 1、通過(guò)你的鄰居的影響力來(lái)評(píng)判你的影響力,但是如果不能通過(guò)鄰居來(lái)訪問(wèn)你,并不代表你沒有影響力,因?yàn)榭梢灾苯釉L問(wèn)你,所以引入阻尼因子的概念2、海洋除了有河流流經(jīng),還有雨水,但是下雨是隨機(jī)的3、提出阻尼系數(shù),還是為了解決某些網(wǎng)站明明存在大量出鏈(入鏈),但是影響力卻非常大的情形。
? ?? 二、Apriori(關(guān)聯(lián)分析)關(guān)聯(lián)關(guān)系挖掘,從消費(fèi)者交易記錄中發(fā)掘商品與商品之間的關(guān)聯(lián)關(guān)系
原理 1.支持度 某個(gè)商品組合出現(xiàn)的次數(shù)與總次數(shù)之間的比例5次購(gòu)買,4次買了牛奶,牛奶的支持度為4/5=0.85次購(gòu)買,3次買了牛奶+面包,牛奶+面包的支持度為3/5=0.6
2.置信度 購(gòu)買了商品A,有多大概率購(gòu)買商品B,A發(fā)生的情況下B發(fā)生的概率是多少買了4次牛奶,其中2次買了啤酒,(牛奶->啤酒)的置信度為2/4=0.5買了3次啤酒,其中2次買了牛奶,(啤酒->牛奶)的置信度為2/3-0.67
3.提升度 衡量商品A的出現(xiàn),對(duì)商品B的出現(xiàn) 概率提升的程度
提升度(A->B)=置信度(A->B)/支持度(B) 提升度>1,有提升;提升度=1,無(wú)變化;提升度<1,下降
4.頻繁項(xiàng)集 項(xiàng)集:可以是單個(gè)商品,也可以是商品組合頻繁項(xiàng)集是支持度大于最小支持度(Min Support)的項(xiàng)集
計(jì)算過(guò)程 1、從K=1開始,篩選頻繁項(xiàng)集。2、在結(jié)果中,組合K+1項(xiàng)集,再次篩選3、循環(huán)1,2步。直到找不到結(jié)果為止,K-1項(xiàng)集的結(jié)果就是最終結(jié)果。
擴(kuò)展:FP-Growth 算法 Apriori 算法需要多次掃描數(shù)據(jù)庫(kù),性能低下,不適合大數(shù)據(jù)量FP-growth算法,通過(guò)構(gòu)建 FP 樹的數(shù)據(jù)結(jié)構(gòu),將數(shù)據(jù)存儲(chǔ)在 FP 樹中,只需要在構(gòu)建 FP 樹時(shí)掃描數(shù)據(jù)庫(kù)兩次,后續(xù)處理就不需要再訪問(wèn)數(shù)據(jù)庫(kù)了。
比喻說(shuō)明 啤酒和尿不濕擺在一起銷售 沃爾瑪通過(guò)數(shù)據(jù)分析發(fā)現(xiàn),美國(guó)有嬰兒的家庭中,一般是母親在家照顧孩子,父親去超市買尿不濕。父親在購(gòu)買尿不濕時(shí),常常會(huì)順便搭配幾瓶啤酒來(lái)犒勞自己,于是,超市嘗試推出了將啤酒和尿不濕擺在一起的促銷手段,這個(gè)舉措居然使尿不濕和啤酒的銷量都大幅增加。
? ?? 三、AdaBoost原理 簡(jiǎn)單的說(shuō),多個(gè)弱分類器訓(xùn)練成為一個(gè)強(qiáng)分類器。將一系列的弱分類器以不同的權(quán)重比組合作為最終分類選擇
計(jì)算過(guò)程 1、初始化基礎(chǔ)權(quán)重2、獎(jiǎng)權(quán)重矩陣,通過(guò)已的分類器計(jì)算錯(cuò)誤率,選擇錯(cuò)誤率最低的為最優(yōu)分類器3、通過(guò)分類器權(quán)重公式,減少正確樣本分布,增加錯(cuò)誤樣本分布,得到新的權(quán)重矩陣和當(dāng)前k輪的分類器權(quán)重4、將新的權(quán)重矩陣,帶入上面的步驟2和3,重新計(jì)算權(quán)重矩陣5、迭代N輪,記錄每一輪的最終分類器權(quán)重,得到強(qiáng)分類器
比喻說(shuō)明 1、利用錯(cuò)題提升學(xué)習(xí)效率 做正確的題,下次少做點(diǎn),反正都會(huì)了做錯(cuò)的題,下次多做點(diǎn),集中在錯(cuò)題上隨著學(xué)習(xí)的深入,做錯(cuò)的題會(huì)越來(lái)越少
2、合理跨界提高盈利 蘋果公司,軟硬結(jié)合,占據(jù)了大部分的手機(jī)市場(chǎng)利潤(rùn),兩個(gè)領(lǐng)域的知識(shí)結(jié)合起來(lái)產(chǎn)生新收益
? ?? 四、C4.5(決策樹)決策就是對(duì)于一個(gè)問(wèn)題,有多個(gè)答案,選擇答案的過(guò)程就是決策。C4.5算法是用于產(chǎn)生決策樹的算法,主要用于分類C4.5使用信息增益率做計(jì)算(ID3算法使用信息增益做計(jì)算)
原理 C4.5選擇最有效地方式對(duì)樣本集進(jìn)行分裂,分裂規(guī)則是分析所有屬性的信息增益率信息增益率越大,意味著這個(gè)特征分類的能力越強(qiáng),我們就要優(yōu)先選擇這個(gè)特征做分類
比喻說(shuō)明 挑西瓜 拿到一個(gè)西瓜,先判斷它的紋路,如果很模糊,就認(rèn)為這不是好瓜,如果它清晰,就認(rèn)為它是一個(gè)好瓜,如果它稍稍模糊,就考慮它的密度,密度大于某個(gè)值,就認(rèn)為它是好瓜,否則就是壞瓜。
? ?? 五、CART(決策樹)CART: Classification And Regression Tree,中文叫分類回歸樹,即可以做分類也可以做回歸。什么是分類樹、回歸樹?
分類樹: 處理離散數(shù)據(jù),也就是數(shù)據(jù)種類有限的數(shù)據(jù),輸出的是樣本的類別 。
回歸樹: 可以對(duì)連續(xù)型的數(shù)值進(jìn)行預(yù)測(cè),輸出的是一個(gè)數(shù)值,數(shù)值在某個(gè)區(qū)間內(nèi)都有取值的可能。回歸問(wèn)題和分類問(wèn)題的本質(zhì)一樣,都是針對(duì)一個(gè)輸入做出一個(gè)輸出預(yù)測(cè),其區(qū)別在于輸出變量的類型
原理 CART分類樹 與C4.5算法類似,只是屬性選擇的指標(biāo)是基尼系數(shù)。基尼系數(shù)反應(yīng)了樣本的不確定度,基尼系數(shù)越小,說(shuō)明樣本之間的差異性小,不確定程度低。分類是一個(gè)不確定度降低的過(guò)程,CART在構(gòu)造分類樹的時(shí)候會(huì)選擇基尼系數(shù)最小的屬性作為屬性的劃分。
CART 回歸樹 采用均方誤差或絕對(duì)值誤差為標(biāo)準(zhǔn),選取均方誤差或絕對(duì)值誤差最小的特征
比喻說(shuō)明 分類:預(yù)測(cè)明天是陰、晴還是雨回歸:預(yù)測(cè)明天的氣溫是多少度
? ?? 六、樸素貝葉斯(條件概率)樸素貝葉斯是一種簡(jiǎn)單有效的常用分類算法,計(jì)算未知物體出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,取概率最大的分類
原理 假設(shè)輸入的不同特征之間是獨(dú)立的,基于概率論原理,通過(guò)先驗(yàn)概率P(A)、P(B)和條件概率推算出后概率出P(A|B)P(A):先驗(yàn)概率,即在B事件發(fā)生之前,對(duì)A事件概率的一個(gè)判斷。P(B|A):條件概率,事件 B 在另外一個(gè)事件 A 已經(jīng)發(fā)生條件下的發(fā)生概率P(A|B):后驗(yàn)概率,即在B事件發(fā)生之后,對(duì)A事件概率的重新評(píng)估。
比喻說(shuō)明 給病人分類
癥狀 職業(yè) 疾病 打噴嚏 護(hù)士 感冒 打噴嚏 農(nóng)夫 過(guò)敏 頭痛 建筑工人 腦震蕩 頭痛 建筑工人 感冒 打噴嚏 教師 感冒 頭痛 教師 腦震蕩
給定一個(gè)新病人,是一個(gè)打噴嚏的建筑工人,計(jì)算他患感冒的概率
? ?? 七、SVMSVM: Support Vector Machine,中文名為支持向量機(jī),是常見的一種分類方法,最初是為二分類問(wèn)題設(shè)計(jì)的,在機(jī)器學(xué)習(xí)中,SVM 是有監(jiān)督的學(xué)習(xí)模型。
什么是有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí) ? 有監(jiān)督學(xué)習(xí):即在已有類別標(biāo)簽的情況下,將樣本數(shù)據(jù)進(jìn)行分類。無(wú)監(jiān)督學(xué)習(xí):即在無(wú)類別標(biāo)簽的情況下,樣本數(shù)據(jù)根據(jù)一定的方法進(jìn)行分類,即聚類,分類好的類別需要進(jìn)一步分析后,從而得知每個(gè)類別的特點(diǎn)。
原理 找到具有最小間隔的樣本點(diǎn),然后擬合出一個(gè)到這些樣本點(diǎn)距離和最大的線段/平面。硬間隔:數(shù)據(jù)是線性分布的情況,直接給出分類軟間隔:允許一定量的樣本分類錯(cuò)誤。核函數(shù):非線性分布的數(shù)據(jù)映射為線性分布的數(shù)據(jù)。
比喻說(shuō)明 1.分隔桌上一堆紅球和籃球 用一根線將桌上的紅球和藍(lán)球分成兩部分
2.分隔箱子里一堆紅球和籃球 用一個(gè)平面將箱子里的紅球和藍(lán)球分成兩部分
? ?? 八、KNN(聚類)機(jī)器學(xué)習(xí)算法中最基礎(chǔ)、最簡(jiǎn)單的算法之一,既能分類也能回歸,通過(guò)測(cè)量不同特征值之間的距離來(lái)進(jìn)行分類。
原理 計(jì)算待分類物體與其他物體之間的距離,對(duì)于K個(gè)最近的鄰居,所占數(shù)量最多的類別,預(yù)測(cè)為該分類對(duì)象的類別計(jì)算步驟1、根據(jù)場(chǎng)景,選取距離計(jì)算方式,計(jì)算待分類物體與其他物體之間的距離2、統(tǒng)計(jì)距離最近的K個(gè)鄰居3、對(duì)于K個(gè)最近的鄰居,所占數(shù)量最多的類別,預(yù)測(cè)為該分類對(duì)象的類別
比喻說(shuō)明 近朱者赤,近墨者黑
? ?? 九、K-Means(聚類)K-means是一個(gè)聚類算法,是無(wú)監(jiān)督學(xué)習(xí),生成指定K個(gè)類,把每個(gè)對(duì)象分配給距離最近的聚類中心
原理 1.隨機(jī)選取K個(gè)點(diǎn)為分類中心點(diǎn)2.將每個(gè)點(diǎn)分配到最近的類,這樣形成了K個(gè)類3.重新計(jì)算每個(gè)類的中心點(diǎn)。比如都屬于同一個(gè)類別里面有10個(gè)點(diǎn),那么新的中心點(diǎn)就是這10個(gè)點(diǎn)的中心點(diǎn),一種簡(jiǎn)單的方式就是取平均值。
比喻說(shuō)明 1.選老大 大家隨機(jī)選K個(gè)老大,誰(shuí)離得近,就是那個(gè)隊(duì)列的人(計(jì)算距離,距離近的人聚合在一起)隨著時(shí)間的推移,老大的位置在變化(根據(jù)算法,重新計(jì)算中心點(diǎn)),直到選出真正的中心老大(重復(fù),直到準(zhǔn)確率最高)
2.Kmeans和Knn的區(qū)別 Kmeans開班選老大,風(fēng)水輪流轉(zhuǎn),直到選出最佳中心老大Knn小弟加隊(duì)伍,離那個(gè)班相對(duì)近,就是那個(gè)班的
? ? 十、EM(聚類) EM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法,也是聚類算法的一種。EM和K-Means的區(qū)別:
EM是計(jì)算概率,KMeans是計(jì)算距離。
EM屬于軟聚類,同一樣本可能屬于多個(gè)類別;而K-Means屬于硬聚類,一個(gè)樣本只能屬于一個(gè)類別。所以前者能夠發(fā)現(xiàn)一些隱藏的數(shù)據(jù)。
原理 先估計(jì)一個(gè)大概率的可能參數(shù),然后再根據(jù)數(shù)據(jù)不斷地進(jìn)行調(diào)整,直到找到最終的確認(rèn)參數(shù)
比喻說(shuō)明 菜稱重。很少有人用稱對(duì)菜進(jìn)行稱重,再計(jì)算一半的分量進(jìn)行平分。大部分人的方法是:1、先分一部分到碟子 A 中,再把剩余的分到碟子 B 中2、觀察碟子 A 和 B 里的菜是否一樣多,哪個(gè)多就勻一些到少的那個(gè)碟子里3、然后再觀察碟子 A 和 B 里的是否一樣多,重復(fù)下去,直到份量不發(fā)生變化為止。到這里,10大算法都已經(jīng)說(shuō)完了,其實(shí)一般來(lái)說(shuō),常用算法都已經(jīng)被封裝到庫(kù)中了,只要new出相應(yīng)的模型即可。- end -推薦閱讀7個(gè)免費(fèi)的PDF文獻(xiàn)資源網(wǎng)站,再也不用為搜索文獻(xiàn)發(fā)愁了!
機(jī)器學(xué)習(xí)丨15個(gè)最流行的GitHub機(jī)器學(xué)習(xí)項(xiàng)目
SQL | 開發(fā)人員必學(xué)的幾點(diǎn) SQL 優(yōu)化點(diǎn)
Hive SQL50道練習(xí)題
Hive使用必知必會(huì)系列
天秀!GitHub 硬核項(xiàng)目:動(dòng)漫生成器讓照片秒變手繪日漫風(fēng)!!!
SQL | ?數(shù)據(jù)分析面試必備SQL語(yǔ)句+語(yǔ)法
?關(guān)注數(shù)據(jù)挖掘工程
總結(jié)
以上是生活随笔 為你收集整理的pagerank数据集_从小白视角理解数据挖掘十大算法 的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
如果覺得生活随笔 網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔 推薦給好友。