2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记
生活随笔
收集整理的這篇文章主要介紹了
2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
- [1] X-Linear Attention Networks for Image Captioning
- [2] Select to Better Learn Fast and Accurate Deep Learning using Data Selection from Nonlinear Manifolds
- [3] AdderNet: Do We Really Need Multiplications in Deep Learning?
- [4] Optimizing Rank-based Metrics with Blackbox Differentiation
- [5] Circle Loss: A Unified Perspective of Pair Similarity Optimization
- [6] Learning to Learn Single Domain Generalization
- 總結
[1] X-Linear Attention Networks for Image Captioning
- motivation:X表示階數,帶來未知和無限可能。現有的attention是一階的。
- method:通過對K和Q(或Q和V)使用local bilinear pooling,得到高階信息,使用Squeeze Excitation得到channel attention。堆疊這個block,得到高階信息。
[2] Select to Better Learn Fast and Accurate Deep Learning using Data Selection from Nonlinear Manifolds
- task:選擇數據集中具有代表性的數據。
- challenge:讓選取的數據張成的空間,和源數據張成的空間,盡可能接近。eg:M代表源數據,K代表要選取的數據(K=0.1M),從M中選K是個NP hard問題。
- contribution1:對原目標函數進行分解,先進行矩陣分解,并添加約束。但是,U中每列必須是選擇的樣本,約束太強了,故繼續改進,使其變為逐列更新(文中公式4a、4b),有些類似K-SVD算法。這部分統稱為SP算法。
- contribution2:將SP算法應用在流形空間上。希望訓練集中某一個樣本,是由選取的樣本中其鄰居重構出來的(文中公式5)。類比公式1,得出公式6,優化公式6的步驟為KSP方法,本質是,先用kernel得到L,然后應用SP算法。
[3] AdderNet: Do We Really Need Multiplications in Deep Learning?
- oral,華為諾亞實驗室和北大合作的一篇文章,這篇我記得看過。
- method:用L1距離代替卷積操作,由于其結果均為負值,引入BN操作(BN內的乘法操作沒有那么expensive)。
- AdderNet的方差比較大,梯度較小,故使用大學習率。
- 本文由于只用加法操作,在CPU上就能跑,沒有和CNN對比速度,因為CNN是在GPU上跑的。
[4] Optimizing Rank-based Metrics with Blackbox Differentiation
- motivation:由于這些指標的不可區分性和不可分解性,對Rank-based Metrics的優化仍然是一個挑戰。
- method:將排序函數建模為組合優化問題,并通過ICLR2020的一篇文章進行求解。
[5] Circle Loss: A Unified Perspective of Pair Similarity Optimization
- oral,曠世、北航
- 類內相似度sps_psp?,類間相似度sns_nsn?,一般任務都要最小化sn?sps_n-s_psn??sp?。用m=sp?snm=s_p-s_nm=sp??sn?代表margin,margin是預設的閾值。當差值小于margin時,才有loss,否則loss為0。
- contribution1:sps_psp?和sns_nsn?的梯度不應該是固定的,應是自適應的,本文添加了參數αp\alpha_pαp?和αn\alpha_nαn?,并通過一個策略進行更新。
- contribution2:直線收斂邊界,改為圓形收斂邊界。sps_psp?和sns_nsn?的margin不應該相同,本文引入Δp\Delta_pΔp?和Δn\Delta_nΔn?.
[6] Learning to Learn Single Domain Generalization
- task:從一個源域,生成多個目標域的數據。eg:訓練數據和測試數據的分布不同,需要進行數據泛化。
- related work:對抗方法,生成樣本。
- challenge:①. 創造與源域不同的虛擬的域。②. 盡可能多的生成樣本,這會消耗大量的計算資源。
- method:使用meta-learning,提出adversarial domain augmentation、relaxing the widely used worst-case constraint,最大化LADAL_{ADA}LADA?損失。
- pipeline:使用公式4生成數據,使用數據對auto encoder進行更新,使用已有數據優化模型,使用生成的數據進行測試,使用多個loss再進行update,提升泛化能力。
總結
- [1] 提出高階attention,文中只針對image caption,其他領域呢?
- [2] 這種data select領域,我從沒接觸過,但是這篇文章聽著真的非常舒服,金豆講的也特別好,什么問題,怎么解決,都聽得很明白。
- [3] AdderNet這種思路好像以前有人做過類似的,兩種特征分布,真的a就比b好么?
- [6] meta-learning是啥,我以前一直不清楚,聽了這次報告后,去大概了解了一下。首先 meta-learning 想法的來源:人類學習某個新的事物會利用之前學到的東西,比如你會玩 LOL,那你學王者榮耀會很快。但是現在的深度學習模型在遇到新的問題,即使很類似的情況下需要從 0 開始重新學習!這一人類智能和 AI 的差異就導致了 meta-learning 的產生。meta-learning 也叫 learning to learn,就是學會學習。(參考自知乎)
總結
以上是生活随笔為你收集整理的2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020-07-07 CVPR2020
- 下一篇: CVPR 2020 《PhraseCut