umap算法_UMAP的初步了解及与t-SNE的比较
降維是機器學習中的可視化和理解高維數據的強大工具。t-SNE是最廣泛使用的可視化技術之一,但其性能在大型數據集中會受到影響。
UMAP是McInnes等人的一項新技術。與t-SNE相比,它具有許多優勢,最顯著的是提高了速度并更好地保存了數據的全局結構。例如,UMAP可以在3min之內處理完784維,70000點的MNIST數據集,但是t-SNE則需要45min。此外,UMAP傾向于更好地保留數據的全局結構,這可以歸因于UMAP強大的理論基礎。
1. 簡單比較UMAP與t-SNE
雖然這兩種算法都表現出強大的局部聚類并將相似的類別分組在一起,但UMAP害將這些相似類別的分組彼此分開。另外,UMAP降維用了4分鐘,而多核t-SNE用了27分鐘。
2. UMAP參數
UMAP中兩個最常用的參數:n_neighbors 和min_dist,它們可有效地用于控制最終結果中局部結構和全局結構之間的平衡。
最重要的參數是n_neighbors ,近似最近鄰居數。它有效地控制了UMAP局部結構與全局結構的平衡,數據較小時,UMAP會更加關注局部結構,數據較大時,UMAP會趨向于代表大圖結構,丟掉一些細節。
第二個參數是min_dist,點之間的最小距離。此參數控制UMAP聚集在一起的緊密程度,數據較小時,會更緊密。較大的值會更松散,而將重點放在保留廣泛的拓撲結構上。
3. 進一步比較UMAP與t-SNE
t-SNE和UMAP大部分的表現非常相似,但以下示例明顯例外:寬而稀疏的cluster中有密集的cluster(如下圖所示)。UMAP無法分離兩個嵌套的群集,尤其是在維數較高時。
UMAP在初始圖形構造中局部距離的使用可以解釋該算法無法處理情況的原因。由于高維點之間的距離趨于非常相似(維數的詛咒),所以可能會因此將其混合在一起。
總結
以上是生活随笔為你收集整理的umap算法_UMAP的初步了解及与t-SNE的比较的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL全文索引:中文语义分词检索(相
- 下一篇: SOC与SIP小芯片两种IP互联技术