cola,一个做consensus clustering的R包
今天和大家分享是我這個月發表的一個Bioconductor工具,叫做cola。它提供一個普遍的框架,用來做consensus clustering。Bioconductor鏈接為https://bioconductor.org/packages/cola/,論文鏈接為https://doi.org/10.1093/nar/gkaa1146。
在cola框架中,consensus clustering被標準化為若干個步驟,其中某些關鍵步驟中,用戶可以自定義自己的方法。如下圖所示:
我提出了一個簡單但是有效的方法,稱作為ATC方法,用來提取有用的feature,用以clustering。這個ATC方法是基于輸入矩陣的全局相關系。你可以看到在下圖中(第一行的四個熱圖),四個不同方法所提取的top features,ATC方法提取的top feature能夠更有效的生成穩定的clustering(第四個熱圖)。
我同樣提出建議使用shperical k-means clustering (skmeans)對ATC所提取的features進行聚類,我展示了skmeans一般來說能夠揭示更多的subgroups,并且分類具有更高的穩定性。
在論文中,我使用了超過400個公共數據集對不同的聚類方法進行了比較。我也對consesus clustering中的關鍵參數的選擇進行了系統性的比較,例如是對行進行隨機抽取還是對列進行隨機抽取,和隨機抽取的次數對結果的影響。
在論文中,我應用cola在基因表達數據和DNA甲基化數據上。結果建議對不同類型的數據應該選擇不同的參數和方法,不能寬泛的使用相同的數據(例如缺省的參數)。
cola包支持同時運行多個聚類方法,并且cola提供了大量的函數用以對結果進行比較。下圖是cola所生成一些圖:
cola提供了強大的函數集,但是同時也提供了一個簡單易用的用戶接口。也就是說,在大多數情況下,用戶只需要執行下面兩行代碼,然后cola會自動運行所有分析,并且將所有結果生成到一個HTML報告中,并且這個HTML報告中也包含了代碼,是完全可以reproducable的。
rl?=?run?all?consensus?partition?methods(matrix,?...) cola?report(rl,?...)最后,歡迎大家使用!
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
(請備注姓名-學校/企業-職務等)
總結
以上是生活随笔為你收集整理的cola,一个做consensus clustering的R包的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux下那些查找命令
- 下一篇: Science亮点!ExSeq:完整生物