文献学习(part74)--Data Clustering: 50 Years Beyond K-means
學(xué)習(xí)筆記,僅供參考,有錯(cuò)必糾
Data Clustering: 50 Years Beyond K-means
根據(jù)感知到的相似性對(duì)物體進(jìn)行分類的做法是許多科學(xué)的基礎(chǔ)。將數(shù)據(jù)組織成合理的分組是理解和學(xué)習(xí)的最基本模式之一。例如,一種常見(jiàn)的科學(xué)分類方案將生物體分為分類等級(jí):領(lǐng)域、界、門、綱等)。聚類分析是根據(jù)測(cè)量或感知的內(nèi)在特征對(duì)對(duì)象進(jìn)行分組的算法和方法的正式研究。聚類分析不使用先前標(biāo)識(shí)符標(biāo)記對(duì)象的類別標(biāo)簽,即類標(biāo)簽。類別信息的缺失將聚類分析(無(wú)監(jiān)督學(xué)習(xí))和鑒別分析(監(jiān)督學(xué)習(xí))區(qū)分開來(lái)。聚類分析的目的是簡(jiǎn)單地找到一個(gè)方便和有效的數(shù)據(jù)組織,而不是建立將未來(lái)的數(shù)據(jù)分類的規(guī)則。
聚類方法的發(fā)展是一項(xiàng)真正的跨學(xué)科努力。分類學(xué)家、社會(huì)科學(xué)家、心理學(xué)家、生物學(xué)家、統(tǒng)計(jì)學(xué)家、工程師、計(jì)算機(jī)科學(xué)家、醫(yī)學(xué)研究人員以及其他收集和處理真實(shí)數(shù)據(jù)的人員都對(duì)聚類方法做出了貢獻(xiàn)。據(jù)JSTOR稱,數(shù)據(jù)聚類最早出現(xiàn)在1954年一篇關(guān)于人類學(xué)數(shù)據(jù)的文章的標(biāo)題中。最著名、最簡(jiǎn)單和最流行的聚類算法之一是K-means。它是由斯坦豪斯(1955),勞埃德(1957),鮑爾和霍爾(1965)和麥昆(1967)獨(dú)立發(fā)現(xiàn)的!通過(guò)谷歌Scholar進(jìn)行的一項(xiàng)搜索發(fā)現(xiàn),僅2007年一年,就有2.2萬(wàn)個(gè)詞條使用了單詞聚類,1560個(gè)詞條使用了單詞數(shù)據(jù)聚類。在2006年和2007年CVPR、ECML、ICDM、ICML、NIPS和SDM上發(fā)表的所有論文中,有150篇涉及聚類。這些大量的文獻(xiàn)談到了聚類在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識(shí)別中的重要性。
一個(gè)簇是由許多相似的對(duì)象組合在一起組成的。雖然很容易給出簇的功能定義,但是很難給出簇的操作定義。這是因?yàn)榭梢愿鶕?jù)不同的目的將對(duì)象分組到簇中。數(shù)據(jù)可以揭示不同形狀和大小的簇。因此,在數(shù)據(jù)中識(shí)別聚類的關(guān)鍵問(wèn)題是指定或?qū)W習(xí)相似性度量。盡管已經(jīng)發(fā)布了數(shù)千種聚類算法,但用戶仍然面臨著選擇算法、距離度量、數(shù)據(jù)規(guī)范化、聚類數(shù)量和驗(yàn)證標(biāo)準(zhǔn)的兩難選擇。熟悉應(yīng)用程序領(lǐng)域和簇目標(biāo)肯定有助于做出明智的選擇。本文將提供聚類算法的背景知識(shí),討論聚類算法設(shè)計(jì)中的主要挑戰(zhàn)和關(guān)鍵問(wèn)題,總結(jié)著名的聚類方法,并指出一些新興的研究方向,包括利用成對(duì)約束的半監(jiān)督聚類,結(jié)合多個(gè)聚類結(jié)果的集成聚類,從側(cè)面信息中學(xué)習(xí)距離度量,同時(shí)進(jìn)行特征選擇和聚類。
總結(jié)
以上是生活随笔為你收集整理的文献学习(part74)--Data Clustering: 50 Years Beyond K-means的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 星露谷物语能玩多少年
- 下一篇: 分布式与人工智能课程(part14)--