當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

看穿机器学习（W-GAN模型）的黑箱

發布時間：2025/3/15 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了看穿机器学习（W-GAN模型）的黑箱小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

圖a. Principle of GAN.

前兩天紐約暴雪，天地一片蒼茫。今天元宵節，長島依然清冷寂寥，正月十五鬧花燈的喧囂熱鬧已成為悠遠的回憶。這學期，老顧在講授一門研究生水平的數字幾何課程，目前講到了2016年和丘成桐先生、羅鋒教授共同完成的一個幾何定理【3】，這個工作給出了經典亞歷山大定理（Alexandrov Theorem）的構造性證明，也給出了最優傳輸理論（Optimal Mass Transportation）的一個幾何解釋。這幾天，機器學習領域的Wasserstein GAN突然變得火熱，其中關鍵的概念可以完全用我們的理論來給出幾何解釋，這允許我們在一定程度上親眼“看穿”傳統機器學習中的“黑箱”。下面是老顧下周一授課的講稿。

生成對抗網絡 GAN

訓練模型?生成對抗網絡GAN （Generative Adversarial Networks）是一個“自相矛盾”的系統，就是以己之矛克以己之盾，在矛盾中發展，使得矛更加鋒利，盾更加強韌。這里的矛被稱為是判別器（Descriminator），這里的盾被稱為是生成器（Generator）。

圖b. Generative Model.

生成器G一般是將一個隨機變量（例如高斯分布，或者均勻分布），通過參數化的概率生成模型（通常是用一個深度神經網來進行參數化），進行概率分布的逆變換采樣，從而得到一個生成的概率分布。判別器D也通常采用深度卷積神經網。

圖1. GAN的算法流程圖。

矛盾的交鋒過程如下：給定真實的數據，其內部的統計規律表示為概率分布，我們的目的就是能夠找出。為此，我們制作了一個隨機變量生成器G，G能夠產生隨機變量，其概率分布是，我們希望盡量接近。為了區分真實概率分布和生成概率分布，我們又制作了一個判別器D，給定一個樣本，D來復制判別這個樣本是來自真實數據還是來自偽造數據。Goodfellow給GAN中的判別器設計了如下的損失函數（lost function），盡可能將真實樣本判為正例，生成樣本判為負例：

。

第一項不依賴于生成器G, 此式也可以定義GAN中的生成器的損失函數。

???????????????????????????

在訓練中，判別器D和生成器G交替學習，最終達到納什均衡（零和游戲），判別器無法區分真實樣本和生成樣本。

優點?GAN具有非常重要的優越性。當真實數據的概率分布不可計算的時候，傳統依賴于數據內在解釋的生成模型無法直接應用。但是GAN依然可以使用，這是因為GAN引入了內部對抗的訓練機制，能夠逼近一下難以計算的概率分布。更為重要的，Yann LeCun一直積極倡導GAN，因為GAN為無監督學習提供了一個強有力的算法框架，而無監督學習被廣泛認為是通往人工智能重要的一環。

缺點?原始GAN形式具有致命缺陷：判別器越好，生成器的梯度消失越嚴重。我們固定生成器G來優化判別器D。考察任意一個樣本，其對判別器損失函數的貢獻是

兩邊對求導，得到最優判別器函數

代入生成器損失函數，我們得到所謂的Jensen-Shannon散度（JS）

。

在這種情況下（判別器最優），如果的支撐集合（support）交集為零測度，則生成器的損失函數恒為0，梯度消失。

改進?本質上，JS散度給出了概率分布之間的差異程度，亦即概率分布間的度量。我們可以用其他的度量來替換JS散度。Wasserstein距離就是一個好的選擇，因為即便的支撐集合（support）交集為零測度，它們之間的Wasserstein距離依然非零。這樣，我們就得到了Wasserstein GAN的模式【1】【2】。Wasserstein距離的好處在于即便兩個分布之間沒有重疊，Wasserstein距離依然能夠度量它們的遠近。

為此，我們引入最優傳輸的幾何理論（Optimal Mass Transportation），這個理論可視化了W-GAN的關鍵概念，例如概率分布，概率生成模型（生成器），Wasserstein距離。更為重要的，這套理論中，所有的概念，原理都是透明的。例如，對于概率生成模型，理論上我們可以用最優傳輸的框架取代深度神經網絡來構造生成器，從而使得黑箱透明。

最優傳輸理論梗概

給定歐氏空間中的一個區域，上面定義有兩個概率測度和，滿足

我們尋找一個區域到自身的同胚映射（diffeomorphism），, 滿足兩個條件：保持測度和極小化傳輸代價。

保持測度?對于一切波萊爾集,

換句話說映射T將概率分布映射成了概率分布，記成?。直觀上，自映射，帶來體積元的變化，因此改變了概率分布。我們用和來表示概率密度函數，用來表示映射的雅克比矩陣（Jacobian matrix），那么保持測度的微分方程應該是：,

，

這被稱為是雅克比方程（Jacobian Equation）。

最優傳輸映射?自映射的傳輸代價（Transportation Cost）定義為

。

在所有保持測度的自映射中，傳輸代價最小者被稱為是最優傳輸映射（Optimal Mass Transportation Map），亦即：

最優傳輸映射的傳輸代價被稱為是概率測度和概率測度之間的Wasserstein距離，記為。

在這種情形下，Brenier證明存在一個凸函數，其梯度映射

就是唯一的最優傳輸映射。這個凸函數被稱為是Brenier勢能函數（Brenier potential）。

由Jacobian方程，我們得到Brenier勢滿足蒙日-安培方程，梯度映射的雅克比矩陣是Brenier勢能函數的海森矩陣（Hessian Matrix），

。

蒙日-安培方程解的存在性、唯一性等價于經典的凸幾何中的亞歷山大定理（Alexandrov Theorem）。

圖2. 亞歷山大定理。

亞歷山大定理? 如圖2所示，給定平面凸區域，考察一個開放的凸多面體，選定一個面，的法向量記為，的投影和相交的面積記為，則總投影面積滿足

，

凸多面體可以被確定。亞歷山大定理對任意維凸多面體都成立。

后面，我們可以看到，這個凸多面體就是Brenier勢能函數，其梯度映射將一個概率分布映到另外一個概率分布，并且這兩個概率分布之間的Wasserstein 距離對偶于此凸多面體決定的體積。理論上，這個凸多面體可以作為W-GAN模型中的生成器G。

W-GAN中關鍵概念可視化

Wasserstein-GAN模型中，關鍵的概念包括概率分布（概率測度），概率測度間的最優傳輸映射（生成器），概率測度間的Wasserstein距離。下面，我們詳細解釋每個概念所對應的構造方法，和相應的幾何意義。

概率分布?GAN模型中有兩個至關重要的概率分布（probability measure），一個是真實數據的概率分布，一個是生成數據的概率分布。另外，生成器的輸入隨機變量，滿足標準概率分布（高斯、均勻分布）。

????圖3. 由保角變換（conformal mapping）誘導的圓盤上概率測度。

概率測度可以看成是一種推廣的面積（或者體積）。我們可以用幾何變換隨意構造一個概率測度。如圖3所示，我們用三維掃描儀獲取一張人臉曲面，那么人臉曲面上的面積就是一個概率測度。我們縮放變換人臉曲面，使得總曲面等于。然后，我們用保角變換將人臉曲面映射到平面圓盤。如圖3所示，保角變換將人臉曲面上的無窮小圓映到平面上的無窮小圓，但是，小圓的面積發生了變化。每對小圓的面積比率定義了平面圓盤上的概率密度函數。

我們可以將以上的描述嚴格化。人臉曲面記為，其上具有黎曼度量。平面圓盤記為，平面坐標為，平面的歐氏度量為。保角映射記為

，

則，這里面積變換率函數給出了概率密度函數。誘導了圓盤上的一個概率測度。

圖4. 兩個概率測度之間的最優傳輸映射。

最優傳輸映射?圓盤上本來有均勻分布，又有保角變換誘導的概率分布，則存在唯一的最優傳輸映射。圖4顯示了這個映射，中間幀到右幀的映射就是最優傳輸映射。我們看到，鼻尖周圍的區域被壓縮，概率密度提高。

圖5. 離散最優傳輸。

離散最優傳輸映射?最優傳輸映射的數值計算非常幾何化，因此可以直接被可視化。我們將目標概率測度離散化，表示成一族離散點，；每點被賦予一個狄拉克測度，，滿足。然后，我們求得單位圓盤的一個胞腔分解，，每個胞腔映到相應的目標點，。映射保持概率測度，胞腔的面積等于目標測度，

同時極小化傳輸代價，

。

圖6. 離散Brenier勢能函數，離散最優傳輸映射。

離散Brenier勢能?離散最優傳輸映射是離散Brenier勢能函數的梯度映射。對于每一個目標離散點，我們構造一個平面?，這里平面的截距是未知變量。這些平面的上包絡（upper envelope）構成一個開放的凸多面體，恰為離散Brenier勢能函數的圖（Graph）,

。

圖6左側顯示了離散Briener勢能函數。凸多面體在平面上的投影構成了平面的胞腔分解，凸多面體的每個面被映成了一個胞腔；每個面的梯度都是，因此Brenier勢能函數的梯度映射就是。

根據保測度性質，每個胞腔的面積應該等于指定面積。由此，我們調節平面的截距以滿足這個限制。根據亞歷山大定理，這種截距存在，并且本質上唯一。

離散Wasserstein距離?我們和丘成桐先生建立了變分法來求取平面的截距。給定截距向量，平面族為，其上包絡構成的Briener勢能函數為?, 上包絡的投影生成了平面的胞腔分解, 胞腔的面積記為。我們定義的能量為，

這個能量在子空間?上是嚴格凹的，其唯一的全局最大點就給出了滿足保測度條件的截距。這個能量的非線性項，實際上是上包絡截出的柱體體積，

，

圖7給出了柱體體積的可視化，柱體體積是凸函數。

圖7. 離散Brenier勢能函數的圖截出的柱體體積。

體積函數和Wasserstein距離之間相差一個勒讓德變換（Legendre Transformation）。勒讓德變換非常幾何化，我們可以將其可視化。給定一個定義在實數軸上的二階光滑凸函數，其圖是一條凸曲線，這條凸曲線由其所有的切線包絡而成。如果，在任意一點，函數的切線的斜率為y，則此切線的截距滿足

，

這被稱為是函數的勒讓德變換。以切線的斜率為參數，以切線的截距為函數值。

圖8.凸函數的圖像由其切線包絡而成，切線集合被表示成原函數的勒讓德對偶。

因為的凸性，映射是微分同胚，記為。那么，原函數和勒讓德變換后的函數滿足關系：

這里c,d是常數。原函數和其勒讓德變換的直觀圖解由圖9給出。我們在xy-平面上畫出曲線，曲線下面的面積是，曲線上面的面積是勒讓德變換。

圖9. 圖解勒讓德變換。

勒讓德變換的幾何圖景對任意維都對。我們下面來考察體積函數的勒讓德變換。根據定義，

假如我們變動截距，或者等價地變動胞腔面積，考察兩個胞腔交界處，

p本來屬于，變化后屬于，所有這種點的總面積為。則為Wasserstein距離帶來的變化是：

因此，總的Wasserstein距離的變化是

。

由此我們看到Wasserstein距離等于

，

其非線性部分是柱體積的勒讓德變換。

總結

通過以上討論，我們看到給定兩個概率分布，則存在唯一的一個凸函數（Brenier 勢函數），其梯度映射把一個概率分布映成了另外一個概率分布。這個最優傳輸映射的傳輸代價就給出了兩個概率分布之間的Wasserstein距離。Brenier勢能函數，Wasserstein距離都有明晰的幾何解釋。

在Wasserstein-GAN模型中，通常生成器和判別器是用深度神經網絡來實現的。根據最優傳輸理論，我們可以用Briener勢函數來代替深度神經網絡這個黑箱，從而使得整個系統變得透明。在另一層面上，深度神經網絡本質上是在訓練概率分布間的傳輸映射，因此有可能隱含地在學習最優傳輸映射，或者等價地Brenier勢能函數。對這些問題的深入了解，將有助于我們看穿黑箱。

圖10. 基于二維最優傳輸映射計算的曲面保面積參數化（area preserving parameterization），蘇政宇作。

圖11. 基于三維最優傳輸映射計算的保體積參數化（volume preserving parameterization），蘇科華作。

（在2016年，老顧撰寫了多篇有關最優傳輸映射的博文，非常欣慰地看到這些文章啟發了一些有心的學者，發表了SIGGRAPH論文，申請了NSF基金。感謝大家關注老顧談幾何，希望繼續給大家靈感。）

參考資料

[1]Arjovsky, M. & Bottou, L.eon (2017) Towards Principled Methods for Training Generative Adversarial Networks

[2] Arjovsky, M., Soumith, C. & Bottou, L.eon (2017) Wasserstein GAN.

[3] Xianfeng Gu, Feng Luo, Jian Sun and Shing-Tung Yau, Variational Principles forMinkowski Type Problems, Discrete Optimal Transport, and Discrete Monge-Ampere
Equations, Vol. 20, No. 2, pp. 383-398, Asian Journal of Mathematics (AJM), April 2016.

https://mp.weixin.qq.com/s/trvMOTXNs7L6fSmTkZXwsA

總結

以上是生活随笔為你收集整理的看穿机器学习（W-GAN模型）的黑箱的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：谷歌大脑Wasserstein自编码器：
下一篇： Understanding Genera

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

看穿机器学习（W-GAN模型）的黑箱

總結