ML 自学者周刊:第 3 期
刊首語
這里記錄ML自學者群體,每周分享優(yōu)秀的學習心得與資料。由于微信不允許外部鏈接,需要點擊文末的「閱讀原文」,才能訪問文中的鏈接。
前幾天看到一則新聞,AI界的網(wǎng)紅老師Siraj,遭吃瓜群眾大規(guī)模打假。
Siraj原本是靠在視頻網(wǎng)站上傳AI教學視頻的博主,被稱為AI界的最強Rapper,吸粉百萬。
當然,他是為了最終能夠通過粉絲的支持來進行盈利,這無可厚非。但有件事他做錯了,而且是原則性錯誤。
首先,他的教學代碼一般是從Github開源項目復制而來,而且刪除了原作者的信息。更過分的事情是,他發(fā)表的論文,也是大段不加改動的,從其他論文處復制粘貼,甚至直接截圖過來。
于是成了千夫所指,人設一夜崩塌。
這個悲慘的故事,告訴我們,想要成名,還得靠腳踏實地的好好學習。來,看看大家本周都學了什么。
本期內(nèi)容
心得分享
骨骼動作識別模型:AGC-LSTM
對FM模型的學習
多任務學習概述
機器人在對話中推薦物品
分水嶺分割方法
學習周記
Mr.WR
賀
君君
千禧
資料分享
超輕量級人臉檢測模型
中文自然語言處理語料
自學心得
骨骼動作識別新模型:AGC-LSTM
本周寫了一個軟件著作權,并將其郵寄到中國版權保護中心。閱讀動作識別綜述論文,和再次閱讀CVPR論文,
該篇論文首次提出AGC-LSTM網(wǎng)絡。不僅能夠分別的提取數(shù)據(jù)在時間和空間上的特征,而且還能查出兩者之間的共現(xiàn)聯(lián)系。在AGC-LSTM頂層,提出了一個時間分層結(jié)構(gòu),該結(jié)構(gòu)不僅可以提高學習高等級表示的能力,而且還能顯著的減少計算代價。
論文名稱: An attention enhanced graph convolutional LSTM Network for Skeleton-Based Action Recognition
論文地址
對FM模型的學習
這周學習FM模型,FM在計算廣告和推薦系統(tǒng)中十分常用,主要優(yōu)點在于考慮了特征交叉,并且算法的時間復雜度仍然還是線行的。
實際業(yè)務中,對于離散型的特征經(jīng)常使用one-hot編碼,傳統(tǒng)的特征交叉方法使得特征維度擴張較為迅速,而且二階項的系數(shù)很容易訓練不充分,而在 FM 中,對于每個特征都學習了一個Embedding二階項的系數(shù)就轉(zhuǎn)化成了特征Embedding之間的內(nèi)積。
在FM的論文中,比較了SVM和FM之間的優(yōu)劣和FM與MF的聯(lián)系,SVM 中的多項式核也可以完成特征交叉,但是并不適合高維稀疏的數(shù)據(jù)。
MF可以理解為,在評分任務中,把用戶對于物品的評分,分解為用戶 Embedding 和物品 Embedding 的內(nèi)積;
FM 的重點在于二階項的計算方式的改寫(改寫成線性時間),在這里附上論文和一些其他看過的博客。
論文:
FM算法詳解
FM模型理論和實踐
Factorization Machines
推薦系統(tǒng)召回四模型之:全能的FM模型
前深度學習時代CTR預估模型的演化之路
多任務學習概述
今天介紹一下這幾天看的一篇多任務概述,發(fā)表在arxiv,引用次數(shù)393。
多任務學習的直觀定義是只要優(yōu)化多個loss就被稱之為多任務學習。為什么關注多任務,是因為我們往往只聚焦于單任務想要優(yōu)化的目標,但是往往會失去一些關聯(lián)信息。
從人類學習的角度來講,在學習復雜任務之前往往會先學習一些簡單的任務。從機器學習的視角來看,與主任務相關的輔助任務可以引入一些額外的信息,這些信息被稱為inductive bias,我個人理解是引入了一些先驗。這些先驗會導致模型會更加關注能夠解釋多個任務的共同部分,而不是只關注解釋單單一個任務,這也會使得泛化能力提高。
多任務有效的原因:
同時學習多個任務會平衡在各自任務上的噪聲,使得模型能夠?qū)W到更好的表征;
輔助任務可以引入額外信息。
如何設計輔助任務:作者在這里并沒有給出一些方法論,而是給出了一些示例。如目標檢測中常常同時輸出目標類別和位置,情感分析中有設置預測輸入句是否存在正向或負向情感詞的輔助任務。
論文名稱:An Overview of Multi-Task Learning in Deep Neural Networks論文地址
分水嶺分割方法
最近在嘗試看論文的代碼,不知不覺就研究上了分水嶺分割方法。并了解了一下同在scikitimage庫中的隨機漫步分割方法。在騰訊云上有翻譯的中文文檔,地址鏈接。
分水嶺算法:對于沒有噪聲的圖像效果很好。即使是有重疊。隨機漫步算法:隨機Walker分割基于各向異性擴散的分割算法,通常比分水嶺慢,但對噪聲數(shù)據(jù)和孔洞邊界具有良好結(jié)果。
自己體驗下來,感覺分水嶺確實是一個很好的傳統(tǒng)分割算法,而隨機漫步算法進行分割感覺太消耗內(nèi)存了。在圖片沒什么噪聲的情況下兩者相比應該優(yōu)先選擇分水嶺
機器人在對話中推薦物品
分享SIGIR2018的一篇文章,個性化的聊天機器人在電商領域,有著可觀的前景。目前的多輪對話中,機器人通常僅僅利用到了用戶的歷史輸入信息,忽略了用戶長期的偏好,從而給出一些不受歡迎的回復。而推薦系統(tǒng),能夠從用戶歷史購買的物品或者給出的評分中,學習到更多的用戶喜好信息。
這篇文章,將對話和推薦兩種看起來有所差異的分支結(jié)合到一起,利用深度強化學習框架,建立個性化的對話推薦機器人,從而能夠優(yōu)化對話體驗,完成對話目標。這里所說的對話目標,是在電商場景下,成功的推薦商品給用戶。
系統(tǒng)主要由三個部分組成:Belief Tracker, Policy Network, Recommender。
論文名稱:Conversational Recommender System論文地址
學習周記
Mr.WR
這周把吳恩達的機器學習看完了,麻省理工的stang教授的線代也看完了。機器學習的視頻就是入了個門,以后還有很多東西要學,正在最后面的編程練習,感覺好多都看不懂。
接下來這周要好好研究研究,然后同時看Python深度學習這本書和林軒田的機器學習技法,爭取在這周看完
賀
這周忙于找工作,沒有太多的時間去學習,主要看了一下網(wǎng)易云課堂上廈門大學林子雨老師的大數(shù)據(jù)原理和應用課程的前十一章,覺得比較適合想要入門大數(shù)據(jù)以及對大數(shù)據(jù)有大致的了解的同學,這門免費課程還有配套的教程和相應的資料,確實還不錯。
君君
在復現(xiàn)論文過程中,為了生成對應數(shù)據(jù)集試過的方法之一,雖然最終沒有采用該方法生成數(shù)據(jù)集,不過我覺得這種勇于創(chuàng)新的思路值得記錄下來(狗頭保命)。
具體背景情況、實驗圖像、實現(xiàn)代碼都詳細在下面鏈接里面有說明,這邊就不重復陳述了。鏈接地址
千禧
最近重溫了sklearn的調(diào)用,從中學習到最新版本的sklearn的細節(jié)操作,從案例中積累超參數(shù)調(diào)整的經(jīng)驗。這里推薦B站視頻:鏈接地址
優(yōu)質(zhì)資料
超輕量級人臉檢測模型
一款超輕量級通用人臉檢測模型,模型文件大小僅1MB,320x240輸入下計算量僅90MFlops,適用于邊緣計算設備、移動端設備以及PC。項目地址
中文自然語言處理語料
大規(guī)模中文自然語言處理語料,包括維基百科,新聞語料,百科問答,社區(qū)問答,翻譯語料。項目地址
加入我們
掃描加微信:
驗證信息:「自學」,即可加入ML自學者俱樂部社群。可以投稿每周學習心得或者看到的優(yōu)質(zhì)學習資料,助力團體共同學習進步。
參考來源
ML自學者俱樂部投稿
黃博的機器學習圈子
知乎機器學習話題
點擊閱讀上一期內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的ML 自学者周刊:第 3 期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谈谈实习这件小事
- 下一篇: ML 自学者周刊:第 2 期