ML 自学者周刊:第 1 期
這里記錄自學(xué)者的學(xué)習(xí)內(nèi)容,歡迎留言投稿你的自學(xué)內(nèi)容。
刊首語
創(chuàng)刊第 1 期,會一直堅(jiān)持下去,希望能夠做到 100?期。一直以來,同學(xué)們都在堅(jiān)持分享。好的自學(xué)內(nèi)容,還是放出來讓大家多看看、多交流為好。歡迎投稿,每周一起學(xué)習(xí)進(jìn)步!
1. 學(xué)習(xí)ALBERT
ALBERT A LITE BERT:是一個輕量級的 BERT 模型,和BERT比有三個變化點(diǎn):
嵌入向量參數(shù)化的因式分解不再將 one-hot 向量直接映射到大小為 H 的隱藏空間,而是先將它們映射到一個低維詞嵌入空間 E,然后再映射到隱藏空間。通過這種分解,研究者可以將詞嵌入?yún)?shù)從 O(V × H) 降低到 O(V × E + E × H),這在 H 遠(yuǎn)遠(yuǎn)大于 E 的時候,參數(shù)量減少得非常明顯,減少計(jì)算量,加快計(jì)算時間。
跨層參數(shù)共享:所有層權(quán)重共享
句間連貫性損失:句間建模使用基于語言連貫性的損失函數(shù)。對于 ALBERT,研究者使用了一個句子順序預(yù)測(SOP)損失函數(shù),它會避免預(yù)測主題,而只關(guān)注建模句子之間的連貫性。
2. 目標(biāo)跟蹤 PRCF
本文研究了池操作對視覺跟蹤的影響,提出了一種新的ROI池相關(guān)濾波算法。雖然基于roi的池算法在許多基于深度學(xué)習(xí)的應(yīng)用中得到了成功的應(yīng)用,但是在視覺跟蹤領(lǐng)域,尤其是在基于相關(guān)濾波的方法中,卻很少考慮到它。由于相關(guān)濾波公式并不能真正提取出正樣本和負(fù)樣本,所以快速R-CNN等基于roi的池是不可行的。通過數(shù)學(xué)推導(dǎo),給出了實(shí)現(xiàn)基于roi的池的另一種解決方案。提出了一種具有等式約束的相關(guān)濾波算法,通過該算法可以等價(jià)地實(shí)現(xiàn)基于roi的池。提出了一種求解優(yōu)化問題的交替方向乘法器(ADMM)算法,并在傅里葉域中給出了一種有效的求解方法。
論文閱讀筆記:http://haha-strong.com/2019/09/23/20190923-RoiCF/
3. 大數(shù)據(jù)系統(tǒng)工程架構(gòu)
4. 溫習(xí)XGBoost
最近溫習(xí)了 XGBoost,通過重讀論文,閱讀一些公眾號的推送和博客,重新把公式推導(dǎo)了一遍,詳細(xì)了解損失函數(shù),泰勒展開,節(jié)點(diǎn)分裂,如果選擇最優(yōu)劃分等具體過程,此外,了解了一些并行化的處理方式。?
公眾號文章:XGBoost超詳細(xì)推導(dǎo),終于有人講明白了!
論文:https://arxiv.org/pdf/1603.02754.pdf
PPT:https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf
并行處理:Parallel Gradient Boosting Decision Trees
5. 小樣本學(xué)習(xí)
最近老師給的任務(wù)涉及到小樣本學(xué)習(xí)問題,讀了以下針對小樣本學(xué)習(xí)的MTL算法,交流一下我學(xué)到的東西,理解不準(zhǔn)確的地方還望指正。
Meta-Transfer Learning for Few-Shot Learning是CVPR 2019接收的論文,第一作者是新加坡國立大學(xué)的Qianru Sun,根據(jù)Papers With Code這個網(wǎng)站的評估,該算法截止到今天是SOTA for Few-Shot Image Classification on Fewshot-CIFAR100 - 10-Shot Learning。
元學(xué)習(xí)的架構(gòu)已經(jīng)被提出,并廣泛應(yīng)用到小樣本檢測問題上,元學(xué)習(xí)的核心是利用大量相似的小樣本檢測任務(wù),以學(xué)習(xí)如何去適應(yīng)一個新的小樣本學(xué)習(xí)任務(wù)。傳統(tǒng)的DNN網(wǎng)絡(luò)在處理小樣本學(xué)習(xí)問題時會有過擬合的問題,因此元學(xué)習(xí)通常使用淺層神經(jīng)網(wǎng)絡(luò),但是這也限制了網(wǎng)絡(luò)的性能。針對上述問題,這篇文章提出了一種新型的小樣本檢測算法,叫做MTL,它采用了一種深層神經(jīng)網(wǎng)絡(luò)用于小樣本檢測問題。M是指meta,代表著多種多樣的任務(wù),T是指transfer,通過學(xué)習(xí)每個任務(wù)的DNN權(quán)重的縮放和移位功能,可以實(shí)現(xiàn)權(quán)重的傳遞。
除此之外,這篇文章介紹了一種方法,該方法對于提升算法性能非常有幫助。傳統(tǒng)的元學(xué)習(xí)方法受到兩方面的限制:
這些方法需要大量類似的任務(wù)來進(jìn)行元訓(xùn)練,而找到大量相似任務(wù)是非常困難的;
每個任務(wù)通常由低復(fù)雜度的淺層神經(jīng)網(wǎng)絡(luò)構(gòu)成,以避免模型出現(xiàn)過擬合,因此無法使用更深更強(qiáng)大的體系結(jié)構(gòu)。
第一步:訓(xùn)練DNN網(wǎng)絡(luò)在大尺度數(shù)據(jù)集上,并且將低層固定為特征提取器,需要注意的是,遷移給小樣本學(xué)習(xí)任務(wù)的特征提取器的相關(guān)權(quán)重而不是DNN的最后一層權(quán)重。
第二步:元遷移學(xué)習(xí)階段,MTL學(xué)習(xí)特征提取神經(jīng)元的縮放和移位參數(shù),從而能夠快速適應(yīng)Few-shot Learning任務(wù)。具體實(shí)現(xiàn)過程在論文的4.2節(jié),講道理我只是看懂了一部分,相比于傳統(tǒng)的方法,這篇論文在傳遞到小樣本學(xué)習(xí)任務(wù)時,凍結(jié)遷移過來的權(quán)重,不進(jìn)行更新,而其他的相關(guān)權(quán)重正常進(jìn)行更新,感覺這篇文章的精髓在于這一部分的凍結(jié)操作和遷移過程的精妙操作。具體怎么遷移的,還需在繼續(xù)學(xué)習(xí)下。
第三步:為了提升整體學(xué)習(xí)水平,使用HT元批量學(xué)習(xí)策略。HT元批量學(xué)習(xí)策略是指挑選檢測失敗的案例進(jìn)行附加訓(xùn)練,重點(diǎn)強(qiáng)調(diào)識別錯誤的例子,“在失敗中成長”…,根據(jù)本文的試驗(yàn),效果還不錯。
文章下載地址:https://arxiv.org/pdf/1812.02391v3.pdf
文章源代碼:https://github.com/y2l/meta-transfer-learning-tensorflow
6.?推公式
路漫漫其修遠(yuǎn)兮,吾將上下而求索。手推牛頓法,混合高斯模型,SVM,核方法,EM,CRF,MCMC等等。這里極度推薦b站shuhuai的視頻,里面的公式解析極其細(xì)致!
加入我們
掃描加微信:
驗(yàn)證信息:「自學(xué)」,即可加入ML自學(xué)者俱樂部社群。可以投稿每周學(xué)習(xí)心得或者看到的優(yōu)質(zhì)學(xué)習(xí)資料,助力團(tuán)體共同學(xué)習(xí)進(jìn)步。
本期分享內(nèi)容均來自黃海廣博士的知識星球,可掃碼加入:
總結(jié)
以上是生活随笔為你收集整理的ML 自学者周刊:第 1 期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ML 自学者周刊:第 2 期
- 下一篇: 产品经理相亲图鉴