2021年炼丹笔记最受欢迎的10篇技术文章
階段性整理知識筆記是煉丹筆記的習慣,在這里我們溫故而知新,根據文章在全網的閱讀情況整理了2021年度,最受歡迎的10篇文章,錯過的朋友可以補一下哦。
推薦系統內容實在太豐富了,以至于剛開始學的人都無從下手,當年無意中翻到谷歌這篇教程,然后就開啟了入"坑"推薦系統的神奇旅程,極力推薦給大家,大家也可以推薦給想學推薦系統的童鞋們。
傳送門:入坑推薦系統,從Google這篇開始
從文章的內容來看,Normalization對于模型的幫助是非常大的。對Embedding之后的特征進行Normalization(數值Embedding處用LayerNorm相關的Normalization,Categorical部分使用BatchNorm相關的處理,MLP部分使用VO-LN)可以取得非常大的提升,非常值得一試。
傳送門:Normalization在CTR問題中的迷之效果
長尾物品(Tail Items)在推薦系統中是非常常見的,長尾的存在導致了樣本的不均衡,對于熱門頭部物品(Head Items)的樣本量多,模型學習這部分的效果越好,而長尾物品的樣本量少,導致模型對該部分Item的理解不夠充分,效果自然也就較差。
那么,針對長尾物品的推薦,有哪些較好的解決方法呢?本文從幾個角度來聊一下這個問題。長尾問題,可以看成是推薦系統傾向于推薦熱門商品,而忽略了非熱門物品,即推薦系統如何解決糾偏問題?
傳送門:推薦系統中的長尾物品(Tail Items)推薦問題
隨著深度學習的快速發展,目前已經出現了海量的不同結構的神經網絡,本文介紹11種煉丹師都需要知道一點的神經網絡結構。
傳送門:煉丹俠必知的11大神經網絡結構?匯總
大家在做模型的時候,往往關注一個特定指標的優化,如做點擊率模型,就優化AUC,做二分類模型,就優化f-score。然而,這樣忽視了模型通過學習其他任務所能帶來的信息增益和效果上的提升。通過在不同的任務中共享向量表達,我們能夠讓模型在各個任務上的泛化效果大大提升。本文談論的主題-多任務學習(MTL)。
傳送門:一文梳理多任務學習(MMoE/PLE/DUPN/ESSM等)
在實踐中,做推薦系統的很多朋友思考的問題是如何對數據進行挖掘,大多數論文致力于開發機器學習模型來更好地擬合用戶行為數據。然而,用戶行為數據是觀察性的,而不是實驗性的。這里面帶來了非常多的偏差,典型的有:選擇偏差、位置偏差、曝光偏差和流行度偏差等。如果不考慮固有的偏差,盲目地對數據進行擬合,會導致很多嚴重的問題,如線下評價與在線指標的不一致,損害用戶對推薦服務的滿意度和信任度等,本篇文章對推薦系統中的Bias問題進行了調研并總結了推薦中的七種偏差類型及其定義和特點。
傳送門:推薦系統中的Bias/Debias大全
從簡單到復雜,每一步我們都會對將要發生的事情做出具體的假設,然后通過實驗驗證這些假設,或者進行研究,直到我們發現一些問題。我們努力防止的是一次引入大量“未經驗證”的復雜假設,這必然會引入錯誤/錯誤配置,這將需要花費很長時間才能找到(如果有的話)。
傳送門:神經網絡調參經驗大匯總
對于基于向量召回,那就不得不提到雙塔。為什么雙塔在工業界這么常用?雙塔上線有多方便,真的是誰用誰知道,user塔做在線serving,item塔離線計算embeding建索引,推到線上即可。本文給大家介紹一些經典的雙塔模型,快速帶大家過一遍,如果想了解細節,強烈建議看論文。
傳送門:做向量召回 All You Need is 雙塔
文章總結了深度學習領域的各種煉丹技巧,讓你在深度學習使用的過程中,掌握各種小Trick。
傳送門:大道至簡:算法工程師煉丹Trick手冊
損失函數是一種評估“你的算法/模型對你的數據集預估情況的好壞”的方法。如果你的預測是完全錯誤的,你的損失函數將輸出一個更高的數字。如果預估的很好,它將輸出一個較低的數字。當調整算法以嘗試改進模型時,損失函數將能反應模型是否在改進。“損失”有助于我們了解預測值與實際值之間的差異。損失函數可以總結為3大類,回歸,二分類和多分類。
傳送門:一文弄懂各種loss function
總結
以上是生活随笔為你收集整理的2021年炼丹笔记最受欢迎的10篇技术文章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于多目标任务有趣的融合方式
- 下一篇: DEEPNORM:千层transform