子空间:群论的角度解释无监督深度学习
參考:
???? ?? 論文把DL的非監督學習映射為群,是為軌道——穩定集理論。
??? ? ? DL的群映射:軌道——穩定集理論
《The Group theoretic? perspective on unSupervised-?DeepLearning》
????????參考:http://en.wikipedia.org/wiki/Group_action
???? ?? 一些現代的典型-特定神經網絡,比如流行的深度學習,在信號——機器視覺、音頻、文本?方面取得破紀錄的成就。同時,對DL的原理的探索也更加讓人感興趣。這篇文章,通過群理論來解釋深度學習。首先,我們先假設一層非監督與處理層可以 按照 orbit-stabilizer?原則?解釋,然后我們?概括?如何好同樣的原則適用于多層網絡。
?????? 我們聚焦于使神經網絡復活的兩條原則:
???????????? Geoff?Hinton 總結(http://www.iro.umontreal.ca/~bengioy/dlbook/ )如下:在計算?圖計算的基礎上?做?機器視覺。換句話說,如果一個網絡?產生了一個好的生成式模型,那么這個模型可以用于分類。
???????????? 每一次訓練一層網絡,而不是訓練整個網絡。
?????? 在每一次訓練過程中,訓練層連接到一個暫時輸出層、然后訓練用于重新產生輸出(i.e to solve P1)) 的權值。這種步驟—分層執行,從第一個隱含層開始,逐步深入到深層——通常被稱為預訓練( see Hintonet al. (2006); Hinton (2007); Salakhutdinov & Hinton (2009); Bengio et al. (in preparation) ),這個訓練結果層被稱為?自編碼器。圖標1?顯示了自編碼器的示意圖,它的權值經過網絡學習為W1. 隨后,當授予一個輸入f,網絡將產生一個輸出f'??約等于 f。此時?輸出為W2 的權值同時被拋棄。
???????這是P1?原理的另一/候補?描述。如上所述的一個自編碼單元,映射到他自身的一個輸入空間。進而,學習之后,他被定義為?輸入 f 的一個“穩定子/穩定集”。現在,輸入信號一般分解為特征。滿足“P1 ” 理論意味著學習器(學習的配置)可以重生成這些特征,圖標1(b)? 闡述?預訓練行為。若隱含層學習了特征f1, f2... ,其中之一,設fi?? 重回作為輸入,輸出 必定為自身 fi。換句話說,學習一個特征等同于?尋找一個 穩定自身的?變換函數(一個自身不動置換類)。
??????
???????? Figure 1: (a) W1 is preserved, W2 discarded (b) Post-learning, each feature is stabilized(c)Alternate ways of decomposing a signal into simpler features. The neurons could potentially learn features in the top row, or the bottom row. Almost surely, the simpler ones (bottom row) are learned.
?????? 穩定子/穩定集 的想法? 啟示了這一個在群作用原理中的 類似推理:軌道自穩定。
?????? 假設G是一個作用在集合X上的群?通過?使自身的點集環繞集合(例如:一個?作用于一個歐式平面的 2X2 可逆矩陣)??紤]:x&X,令Ox?為一個?所有的可通過此群變化達到此種狀態的x的集合,Ox被稱為?軌道。其中的一個子集可以使k?保持不變性,這個子集Sx(也被成為子群),是x 的一個穩定子。???若?可以定義一個群的量的概念,Sx?和Ox 存在?一個逆反關系,即使這秉持著: x?本質上其實是一個子集(而不是成為一個點)。比如:對于有限群,|Ox|?和 |Sx|?的生成群?為一個序集。
(參考:1.A transformation T is called a stabilizer of an input f , if f0 = T( f ) = f .
2.Mathematically, the orbit Ox of? an element x 2 X under the action of a group G, is defined as the set{ }.
??????????軌道 和穩定子/穩定集的各層?之間的 逆反關系?在我們?重返分析DL時占據中心角色。有很多可能的方法分解信號到更小的特征,圖表1(c)闡述了這一點:一個矩形可以分解為 L形狀特征 和 線特征。
?????????迄今為止?所有的實驗?顯示:一個神經網絡?更傾向于?學習邊特征。但是為什么?為了回答這個,假想一下來自于群的自編碼器的空間(被視為輸入變換)。一旦穩定子/穩定集 產生?則批學習迭代停止。 大概的說:若搜索是一個馬爾科夫鏈(或者一個啟發鏈比如?蒙特卡洛馬爾科夫),若穩定子/穩定集 越大,越容易碰撞。 群結構顯示越大的穩定子/穩定集 傾向于小的軌道。直覺顯示擁有更簡單的特征,就有更小的軌道。例如:線分割?在線性變化下產生更多可能的形狀?而不是花狀的形狀。一個自編碼器首先?應該學習這種簡單特征,這?被大多數實驗?證實(see Lee et al. (2009)).)。
???????? 這個直覺傾向于?一個多層方案。每一層?用一個大穩定子/穩定集 發現一個特征 。但是除了第一層,輸入已經和樣本層不在一個空間。一個?在這個新空間的“簡單”特征?對應了一個 相對于原始空間更復雜的形狀。這種過程隨著層數增加而增加,從這種局部的模型表示?我們得到了已學習的高層表示。
引用文章:
???????? Bengio, Yoshua, Goodfellow, Ian, and Courville, Aaron. Deep learning. In Deep Learning. MIT Press, in preparation. URL??????? http://www.iro.umontreal.ca/~bengioy/dlbook/.
?????? ? Hinton, Geoffrey E. To recognize shapes, first learn to generate images. Progress in brain research,165:535–547, 2007.
???????? Hinton, Geoffrey E., Osindero, Simon, and Teh, Yee Whye. A fast learning algorithm for deep belief nets. Neural Computation, 18:1527–1554, 2006.
?????? ? Lee, Honglak, Grosse, Roger, Ranganath, Rajesh, and Ng, Andrew Y. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pp. 609–616. ACM, 2009.
?????? ? Salakhutdinov, Ruslan and Hinton, Geoffrey E. Deep boltzmann machines. In International Conference on Artificial Intelligence and Statistics, pp. 448–455, 2009.
后記:
后記:
????????此篇論文把DL的非監督學習映射為群,是為軌道——穩定集理論。
??????? 不動置換類:設G是1,2,...,n 的置換群。若k是1…n中的某個元素,G中使 k 保持不變的置換的全體,記以 Zk,叫做 G 中使 k 保持不動的置換類,簡稱k不動置換類。
性質: ??????
群G中關于 k 的不動置換類 Zk 是G的一個子群。 證明:?????? 封閉性:p1,p2分別是使k不動的兩個置換,即p1,p2屬于Zk,則p1p2屬于Zk。 結合律:對于群結合律成立,Zk屬于G,故Zk中元素結合律成立。 單位元:群G的單位元屬于Zk,也是Z的單位元。 逆元素:p屬于Zk使得k保持不變,p的逆元屬于G也使k不變,故逆元存在。 因此 Zk 本身也是一個群,是群G的一個子群。
??? 若G是N={1,2,...,n}上的置換群,G在N上可以引出不同的等價類,則不同等價類的個數為
??????????
參考:
??????? Cayley定理又稱凱萊定理,在群論中,以阿瑟·凱萊命名,聲稱所有群 G 同構于在 G 上的對稱群的子群。這可以被理解為G在G的元素上的群作用的一個例子。集合 G 的置換是任何從 G 到 G 的雙射函數;所有這種函數的集合形成了在函數復合下的一個群,叫做“G 上的對稱群”并寫為 Sym(G)。
??????? 凱萊定理通過把任何群(包括無限群比如 (R,+))都當作某個底層集合的置換群,把所有群都放在了同一個根基上。因此,對置換群成立的定理對于一般群也成立。
???????
定理理解:
??????? 此定理說明用n-1條邊將n個一致的頂點連接起來的連通圖的個數為n^(n-2),也可以這樣理解,將n個城市連接起來的樹狀公路網絡有n^(n-2)種方案。所謂樹狀,指的是用n-1條邊將n個頂點構成一個連通圖。當然,建造一個樹狀的公路網絡將n個城市連接起來,應求其中長度最短、造價最省的一種,或效益最大的一種。Cayley定理只是說明可能方案的數目。???????
???????這對特征提取個數的理解呢?
???????待續................
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎
總結
以上是生活随笔為你收集整理的子空间:群论的角度解释无监督深度学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网站开发常用jQuery插件总结(13)
- 下一篇: 弱电工程各个系统的线缆数量计算方法-弱电