NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
?作者?|?機器之心編輯部
來源?|?機器之心
常規符號函數的梯度幾乎處處為零,不能用于反向傳播。為此,來自華為諾亞方舟實驗室等機構的研究者提出一種在頻域中估計原始符號函數梯度的新方法。
二值神經網絡(BNN)將原始全精度權重和激活用符號函數表征成 1-bit。但是由于常規符號函數的梯度幾乎處處為零,不能用于反向傳播,因此一些研究已經提出嘗試使用近似梯度來減輕優化難度。然而,這些近似破壞了實際梯度的主要方向。
基于此,在一篇 NeurIPS 2021 論文中,來自華為諾亞方舟實驗室等機構的研究者提出使用傅里葉級數的組合來估計頻域中符號函數的梯度以訓練 BNN,即頻域逼近 (FDA)。所提方法不影響占整體能量大部分的原始符號函數的低頻信息,并且將高頻系數使用噪聲擬合模塊 (noise adaptation module) 進行估計以避免大量的計算開銷。
論文地址:
https://arxiv.org/pdf/2103.00841.pdf
在幾個基準數據集和神經架構上的實驗表明,使用該方法學習的二值網絡實現了 SOTA 準確率。
數日前,在機器之心 2021 NeurIPS MeetUp China 上,論文一作許奕星為參會者解讀了該論文,感興趣的讀者可以查看以下視頻。
方法
該研究提出的 FDA 方法,通過利用傅里葉級數 (FS) 來估計頻域中的原始符號函數,FS 估計是使用無窮項時符號函數的無損表征。在實際應用中,能量相對較低的高頻系數會被忽略,以避免巨大的計算開銷,并將符號函數表征為固定數量的不同周期正弦函數的組合。與現有的逼近方法相比,該研究所提出的頻域逼近方法不影響原始符號函數的低頻域信息,即占用符號函數能量最多的部分。因此,原始符號函數相應梯度的主要方向能夠被更準確地保持。
在論文中,該研究對所提方法做了詳細的理論表述。
論文中用 f(·)和 f’(·)來表示原始函數及其對應的梯度函數。由于符號函數的梯度是一個無法反向傳播的脈沖函數,需要應用進化算法(evolutionary algorithm)等零階算法來達到最優解,但這是非常低效的。因此該研究提出找到一個代理函數,通過一階優化算法(如 SGD)依靠實驗求解,而理論上具有與符號函數相同的最優解。
已有研究證明,任何周期為 T 的周期信號都可以分解為傅里葉級數的組合:
其中 ω = 2π/T 是角頻率,α_0/2 是直接分量,是正弦(余弦)分量的系數。具體來說,當周期信號呈方波時,有:
并推導出方波 s(t) 的 FS:
注意到當信號被限制在單個周期內時,符號函數與方波等同:
因此,符號函數也可以被分解為正弦(余弦)函數的組合,并且其導數如下:
然后,該研究提出使用上述等式 (8) 替換 STE 中的導數,以在反向傳播期間更好地逼近符號函數。
當將信號從空間域轉換到頻域,使用無限項時,FS 分解是符號函數的無損表征,因此等式 (6) 可以重寫為:
其中,n 是 FS 的項數,相應的導數是:
然后該研究進一步證明了隨著 n 的增加,估計值和 s(t)之間的均方誤差會逐漸減小,并在 n → ∞ 時收斂到 0。
為了進一步補償細微的逼近誤差,該研究在訓練階段添加了一個噪聲適應模塊來細化梯度。
實驗及結果
為了展示 FDA-BNN 優越的性能,該研究在 CIFAR-10 數據集上進行了評估實驗,實驗結果如下表所示。
消融實驗
為了驗證所提方法中每個組件的有效性、噪聲適應模塊和超參數的影響,該研究進行了一系列的消融實驗。
首先,該研究使用 ResNet-20 架構在 CIFAR-10 上實驗驗證正弦模塊和噪聲適應模塊的效果,結果如下表所示。
從上表的結果看,使用正弦模塊可使訓練過程受益,將準確率從 84.44% 提高到 85.83%。將正弦模塊和噪聲自適應模塊組合在一起時得到了最佳性能,即 86.20% 的準確率。
為了進一步驗證噪聲適應模塊的用途,研究者將該模塊添加到其他梯度逼近方法中,例如 DSQ 和 BNN+,結果如下表所示。
然后該研究評估了不同 η(·) 對噪聲適應模塊的影響。結果如下表所示,使用 shortcut 時性能更好,并且 shortcut function η(x) = α sin(x) 在實驗過程中表現最好。
在 ImageNet 上的實驗
該研究進一步在大規模數據集 ImageNet ILSVRC 2012 上進行了實驗,使用 ResNet-18 和 AlexNet 進行實驗,結果如下表所示。
對于 ResNet-18,FDA-BNN 實現了 60.2% 的 top-1 準確率和 82.3% 的 top-5 的準確率,比基線方法(Bireal-Net + PReLU)高出 1.2% 和 1.0%,并超過所有其他方法。
當以 ReActNet 作為基線方法,并使用該研究所提方法計算符號函數的梯度, FDA-BNN 達到了 66.0% 的 top-1 準確率,86.4% 的 top-5 準確率,比基線方法分別高出 0.5% 和 0.3%。
對于 AlexNet,該研究使用 Dorefa-Net 中的量化方法作為基線方法,FDA-BNN 實現了 46.2% 的 top-1 準確率和 69.7% 的 top-5 準確率,并優于其他 SOTA 方法。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么家具要做旧?
- 下一篇: 新冠疫情影响房价吗?