gelu
- 聯(lián)系
- 管理
- 訂閱
-
<div class="blogStats"><!--done-->隨筆-
75?
文章-
0?
評論-
40?</div><!--end: blogStats --></div><!--end: navigator 博客導(dǎo)航欄 --><div id="post_detail">[Deep Learning] GELU (Gaussian Error Linerar Units)
</h1><div class="clear"></div><div class="postBody">目錄
- TL; NR
- 1. 正態(tài)分布
- 1.1 定義
- 1.2 概率密度函數(shù)
- 1.3 累積分布函數(shù)
- 1.4 標(biāo)準(zhǔn)正態(tài)分布
- 2. 誤差函數(shù)
- 2.1 定義
- 2.2 誤差函數(shù)與正態(tài)分布
- 2.3 性質(zhì)(部分)
- 3. GELU
- 3.1 Abstract
- 3.2 Introduction
- 3.3 GELU Formulation
- 3.4 實(shí)驗(yàn)結(jié)果
- 3.5 Discussion
- 3.6 GELU的導(dǎo)數(shù)
?
(轉(zhuǎn)載請注明出處哦~)
參考鏈接:
1. 誤差函數(shù)的wiki百科:https://zh.wikipedia.org/wiki/%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0
2. 正態(tài)分布的博客:https://blog.csdn.net/hhaowang/article/details/83898881
3. StackExchange Mathematics:?Why the error function is so similar to the hyperbolic tangent??
https://math.stackexchange.com/questions/1892553/why-the-error-function-is-so-similar-to-the-hyperbolic-tangent
4. WolframAlpha:?y = tanh(x) - \int_{0}^{x}e^{-t^{2}}dt
https://www.wolframalpha.com/input/?i=y+%3D+tanh(x)+-+%5Cint_%7B0%7D%5E%7Bx%7De%5E%7B-t%5E%7B2%7D%7Ddt
前導(dǎo)知識(shí):正態(tài)分布(section 1),誤差函數(shù)(section 2),ReLU,ELU, dropout,?zoneout.
5. GELU 論文:https://arxiv.org/abs/1606.08415
6. Data Science: What is GELU activation???https://datascience.stackexchange.com/questions/49522/what-is-gelu-activation
7. Logistic vs Gaussian:?http://visionlab.harvard.edu/Members/Anne/Math/Logistic_vs_Gaussian.html
8.?Normal approximation to logistic distribution:?https://www.johndcook.com/blog/2010/05/18/normal-approximation-to-logistic/
分類: NLP, 算法模型, 概率論與數(shù)理統(tǒng)計(jì), Deep learning 標(biāo)簽: GELU, 激活函數(shù), bert, 誤差函數(shù)GELU(x)=Φ(x)?I(x)+(1?Φ(x))?0x=xΦ(x)GELU(x)=Φ(x)?I(x)+(1?Φ(x))?0x=xΦ(x) 鏈接:https://arxiv.org/pdf/1710.05941.pdf
對比GELU與swish函數(shù),GELU在正值區(qū)間的變化更為顯著,因此具有稍高一些的梯度,在反向傳播時(shí)可以更有效的更新梯度;
在負(fù)值區(qū)域,GELU函數(shù)的值相較于swish普遍更接近與x軸,因此具有更佳的單邊抑制效果。
比較有意思的是GELU與swish的導(dǎo)數(shù)均在負(fù)值區(qū)間內(nèi)出現(xiàn)了負(fù)數(shù)的情況,這與以往的激活函數(shù)ReLU, sigmoid, tanh等不同,這些激活函數(shù)的導(dǎo)數(shù)取值非負(fù)。但是GELU導(dǎo)數(shù)的負(fù)值出現(xiàn)的更早,并且負(fù)值更小,swish有較長一段區(qū)間都有非常微小的負(fù)值,變化并不明顯。個(gè)人認(rèn)為這可能是GELU效果優(yōu)于xσ(x)及其他激活函數(shù)的原因之一。即當(dāng)input的值在接近-1邊界時(shí),可以通過負(fù)的導(dǎo)數(shù)的調(diào)節(jié),將其拉回較大取值處。GELU相較于swish可能有更好的調(diào)節(jié)效果。
另外,GELU的導(dǎo)數(shù)相較于xσ(x)的導(dǎo)數(shù)變化幅度更大一些,對于網(wǎng)絡(luò)中權(quán)值的更新調(diào)節(jié)可能更為靈敏。---這只是個(gè)人的理解,并非官方論文的結(jié)論。
?您愿意請我吃一根雪糕嗎?[支付寶] O(∩_∩)O??
好文要頂 關(guān)注我 收藏該文 listenviolet<div id="blog_post_info">
關(guān)注 - 2
粉絲 - 20 +加關(guān)注 0 0
posted @ 2019-07-02 17:12?listenviolet 閱讀(697) 評論(0) 編輯 收藏 刷新評論刷新頁面返回頂部 注冊用戶登錄后才能發(fā)表評論,請 登錄 或 注冊, 訪問 網(wǎng)站首頁。 【推薦】騰訊云海外1核2G云服務(wù)器低至2折,半價(jià)續(xù)費(fèi)券限量免費(fèi)領(lǐng)取!<div class="clear"></div> <div id="post_next_prev"><a href="https://www.cnblogs.com/shiyublog/p/11078313.html" class="p_n_p_prefix">? </a> 上一篇: <a href="https://www.cnblogs.com/shiyublog/p/11078313.html" title="發(fā)布于 2019-06-24 19:15">[Python] 等號賦值, copy, deepcopy的區(qū)別</a> <br> <a href="https://www.cnblogs.com/shiyublog/p/11136940.html" class="p_n_p_prefix">? </a> 下一篇: <a href="https://www.cnblogs.com/shiyublog/p/11136940.html" title="發(fā)布于 2019-07-05 10:53">[NLP] cs224n-2019 Assignment 1 Exploring Word Vectors</a>
【活動(dòng)】京東云服務(wù)器_云主機(jī)低于1折,低價(jià)高性能產(chǎn)品備戰(zhàn)雙11
【推薦】超50萬行VC++源碼: 大型組態(tài)工控、電力仿真CAD與GIS源碼庫
【培訓(xùn)】馬士兵老師一對一在線指導(dǎo)!幫你從月薪3000到日薪3000
【推薦】天翼云雙十一翼降到底,云主機(jī)11.11元起,抽獎(jiǎng)送大禮
【提升】Java程序員年薪40W,他1年走了別人5年的學(xué)習(xí)之路
【推薦】流程自動(dòng)化專家UiBot,體系化教程成就高薪RPA工程師
相關(guān)博文:
· 激活函數(shù)記錄
· 牛頓方法
· 透過表象看本質(zhì)!?之二數(shù)據(jù)擬合
· deep learning 自編碼算法詳細(xì)理解與代碼實(shí)現(xiàn)(超詳細(xì))
· 線性回歸
? 更多推薦...
最新 IT 新聞:<div id="google_ads_iframe_/1090369/C2_0__container__" style="border: 0pt none;"><iframe id="google_ads_iframe_/1090369/C2_0" title="3rd party ad content" name="google_ads_iframe_/1090369/C2_0" width="468" height="60" scrolling="no" marginwidth="0" marginheight="0" frameborder="0" srcdoc="" style="border: 0px; vertical-align: bottom;" data-google-container-id="2" data-load-complete="true"></iframe></div></div> </div> <div id="under_post_kb">
· 5nm怎樣給摩爾定律續(xù)命?巨頭開打制程之戰(zhàn)2.0,祭出三大殺器
· 蘋果英特爾對軟銀子公司發(fā)起反壟斷訴訟 指控其為專利流氓
· 王思聰被北京二院再發(fā)限制消費(fèi)令:此前上海禁令剛?cè)∠?
· 私有云服務(wù)商Gravitational獲2500萬美元A輪融資
· 比特幣礦業(yè)巨頭嘉楠在美IPO融資9000萬美元
? 更多新聞...</div>
總結(jié)
- 上一篇: view(*args)改变张量的大小和形
- 下一篇: 【PyTorch学习笔记】4:在Tens