本周NLP、CV、机器学习论文精选推荐
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第 126?篇文章@paperweekly 推薦
#Knowledge Graph
本文是新加坡國立大學和 eBay 發表于 AAAI 2019 的工作,論文提出了一種基于循環神經網絡的推薦模型,對用戶和物品之間的交互特征在知識圖譜中存在的關聯路徑進行建模,為用戶提供可解釋性推薦。
該模型基于 LSTM 學習關聯路徑的表示,充分考慮了實體、關系間產生的序列依賴性,具備較強的推理能力。實驗表明,本文模型在電影數據集 MI 和音樂數據集 KKBox 上取得了當前最優結果。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2644
@zkt18 推薦
#Sequence to Sequence Learning
本文是北京大學和微軟發表于 AAAI 2019 的工作。最大似然估計常被用作評估 Seq2Seq 生成序列的效果,根據實證研究,作者認為非平滑方法往往效果較差。
本文提出了一種句子正則化方法,為目標序列中的所有 token 輸出平滑的預測概率。在三個神經機器翻譯任務和一個文本摘要任務上的實驗表明,本文效果超出傳統MLE,每個token概率越平滑,BLEU分數越高。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2640
@zkt18 推薦
#Contextual Augmentation
本文來自中國科學院大學。傳統 GAN 與 VAE 生成句子在一致性與可讀性方面難以保證質量,近年基于詞語替換的方法取得了成功。
BERT 使用 Masked Language Model(MLM)任務來預訓練,MLM 任務是利用上下文的填空任務(cloze)。這個任務和短文本的語境增強(Contextual Augmentation,使用語言模型來預測并替換句子中的部分詞,生成新句子)任務非常貼近。
預訓練好的 BERT 模型, 可以通過 MLM 任務來實現語境增強。對于有類別標簽的短文本,為了使預測出的替換詞和原標簽兼容,本文提出一個 Conditional MLM 的 fine-tuning 任務。
BERT 輸入中的 Segmentation Embeddings 被替換成 Label Embeddings,在下游目標任務數據集上訓練 Conditional MLM 任務,得到 Conditional BERT。將 Conditional BERT 應用于語境增強,對 6 個短文本分類數據集進行文本增強,都得到了分類效果的明顯提升。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2655
@guohao916 推薦
#Machine Reading Comprehension
本文來自約翰霍普金斯大學和微軟,論文發布了一個帶有常識性推理的機器閱讀理解數據集。實驗結果表明目前的最新閱讀理解模型在該數據集上的結果顯著弱于人工評估結果。ReCoRD 數據集為研究如何縮小人與機器之間對于常識推理的理解提供了機會。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2648
數據集鏈接
https://sheng-z.github.io/ReCoRD-explorer/
@Zsank 推薦
#Neural Language Model
本文來自斯坦福大學 Andrew Ng 團隊。數據增強作為一種能夠顯著提升模型性能的方法,已經在 CV 領域證明了其有效性,但鮮有用于 NLP 領域中。在 NLP 領域,正則化一般是對權重(如 L2 正則化)或者隱層單元(如 dropout)進行處理的,而不是直接對數據本身。
在本文中,作者證明了神經語言模型中,對數據施加噪聲相當于n-gram的插值平滑,能夠提升神經語言模型的性能。BERT 也是用了神經語言模型,并且訓練時使用了 Mask 方法。而 Mask 方法為什么有效正是這篇論文的一個重點。雖然兩者方法不同,但也可以作為 BERT 的擴展閱讀。況且,就憑該論文的作者們的名字也值得一看。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2641
源碼鏈接
https://github.com/stanfordmlgroup/nlm-noising
@zkt18 推薦
#Text Classification
本文是杜克大學發表于 ACL 2018 的工作。作者將文本分類看作 words and labels joint embedding:每一 label 嵌入到詞向量的同一位置。使用 attention 訓練,確保對于一個文本序列,相關詞的權重比非相關詞高。Word Embedding 效果對于提高任務準確率十分重要,重點在于如何使用 label 信息構建文本序列表示。
NLP 任務通常有三步操作,embed->encode->predict。本文在 embed 中加入 label 信息,在 encode 中使用關于 word 和 label 的注意力,簡單模型即可取得先進結果。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2459
源碼鏈接
https://github.com/guoyinwang/LEAM
@darksoul 推薦
#Object Detection
本文是香港中文大學發表于 AAAI 2019 的工作,文章從梯度的角度解決樣本中常見的正負樣本不均衡的問題。從梯度的角度給計算 loss 的樣本加權,相比與 OHEM 的硬截斷,這種思路和 Focal Loss 一樣屬于軟截斷。
文章設計的思路不僅可以用于分類 loss 改進,對回歸 loss 也很容易進行嵌入。不需要考慮 Focal Loss 的超參設計問題,同時文章提出的方法效果比 Focal Loss 更好。創新點相當于 FL 的下一步方案,給出了解決 class-imbalance 的另一種思路,開了一條路,估計下一步會有很多這方面的 paper 出現。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2654
源碼鏈接
https://github.com/libuyu/GHM_Detection
@wangshy 推薦
#Video Object Detection
本文是清華大學和商湯科技發表于 ECCV 2018 的工作。在視頻物體檢測任務中,作者提出了一種關注運動信息(Fully Motion-Aware Network:MANet)的端到端模型,它在統一的框架中同時進行像素級和實例級的特征對準來提高檢測精度。
像素級校準可靈活地建模細節運動,而實例級校準更多地捕捉物體整體運動信息,以便對遮擋具有魯棒性。實驗表明,本文模型在ImageNet VID數據集上達到了領先的精度。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2622
源碼鏈接
https://github.com/wangshy31/MANet_for_Video_Object_Detection
@pyy 推薦
#Data Augmentation
本文來自神戶大學,論文提出了一種基于隨機圖像裁剪和修補的圖像預處理方法 RICAP,隨機裁剪四個圖像并對其進行修補以創建新的訓練圖像。該方法非常簡單實用,把幾張圖拼在一起,然后 label 就是這幾張圖類別占圖片大小的比率。實驗表明,本文方法在 CIFAR-10 數據集上實現了 2.19% 的測試誤差。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2645
@Kralkatorrik 推薦
#Image Classification
本文是清華大學和 UIUC 發表于 CVPR 2018 的工作。這篇文章假定數據樣本在特征空間服從高斯混合分布,使用 Gaussian Mixture 代替 Softmax 做概率表示,用交叉熵損失來做優化。除此之外,遵循約束類內距離增加類間距離的思想,引入 L_likehood 損失,并在 GM 中增加 margin,構成了最終的 LGM Loss。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2619
源碼鏈接
https://github.com/WeitaoVan/L-GM-loss
@paperweekly 推薦
#Human Pose Estimation
本文來自電子科技大學和 Vision Semantics。現有的人體姿態估計方法通常更側重于設計網絡學習更適合的特征,從而使得定位精度更高。往往容易忽視在模型實際部署時,可能面臨模型較大和計算復雜度過高的問題。本文基于一個輕量級的 Hourglass 網絡和知識蒸餾,提出了一種模型復雜度更低、模型 size 更小的全新方法——FPD。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2647
@haonan 推薦
#Generative Graph
本文是斯坦福大學和南加州大學發表于 ICML 2018 的工作,論文關注的問題是基于圖的概率生成模型,作者提出了一種全新的深度自回歸模型 GraphRNN。寫作動機如下:1. 因為需要表示 node 之間的關系,所以 space 大;2. node 的表示順序多種多樣;3. node 的生成順序需要依賴已經生成的 node 順序。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2608
源碼鏈接
https://github.com/JiaxuanYou/graph-generation
@xuzhou 推薦
#Time Series Analysis
時間序列聚類是根據序列之間的相似性或者特征進行分類。之前的方法通常是將特定的距離衡量方法和標準的聚類算法結合起來。但是這些方法沒有考慮每一個序列的子序列之間的相似性,這可以被用來更好地比較時間序列。
本文提出了一個新穎的基于兩個聚類步驟的聚類算法。第一步,對每個時間序列進行最小平方多項式分割,該技術是基于逐漸變大窗口技術并返回不同長度的分割。然后基于模型近似分割和統計特征系數將所有的分割被映射到相同的維度空間。第二步,對所有時間序列對象進行組合。作者考慮到了算法自動調整主要參數的特點。實驗證明了該方法的優越性。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2505
@paperweekly 推薦
#Recommender System
本文是 Schibsted Media Group 發表于 RecSys 2018 的工作。論文關注的問題是推薦系統在二手市場上的應用,作者通過在線實驗對三種基于深度神經網絡的推薦模型進行了基準測試,對比它們在生產環境中的性能表現。這三種模型分別為混合項目-項目推薦器、基于序列的用戶項目推薦器以及一種更高級的多臂bandit算法。
結果表明,在冷啟動和基于序列的模型中,將協同過濾和內容特性相結合可以更好地表示項目。此外,作者還在其他推薦算法的基礎上,將bandit作為更高級的再排序工具,這種方法對于利用上下文信息和組合多個業務領域的推薦系統非常有用。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2646
@zhangjun 推薦
#Evolutionary Algorithm
本文是 IBM Research AI 發表于 NeurIPS 2018 的工作,亮點在于將 SGD 和進化算法融合起來,提高機器學習優化算法的有效性。
SGD 是一種常見的基于目標函數梯度的算法,常用于機器學習和深度學習模型參數學習,優化效率較高,但容易陷入局部最優解;而進化算法是一種全局優化算法,只要進化代數足夠大,總會找到全局最優解,但計算效率相對低下。基于此,本文提出了兩者結合的優化框架,并在 CV、NLP、ASR 任務上進行了測試,驗證了本文方法的有效性。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2615
@ZSCDumin?推薦
#Recommender System
本文來自南洋理工大學。作為個體的用戶和群組成員的行為是不同的,作者基于用戶評級歷史的深度學習技術,提出了一個注意力群體推薦模型來解決群體推薦問題,模型自動學習群組中的每個用戶的影響權重并根據其成員的權重偏好為群組推薦項目。雖然基于圖和概率的模型已經得到了廣泛的研究,但本文是第一個將 Attention 機制應用到群體推薦中的。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2561
#推 薦 有 禮#
本期所有入選論文的推薦人
均將獲得PaperWeekly紀念周邊一份
▲?深度學習主題行李牌/卡套 + 防水貼紙
?禮物領取方式?
推薦人請根據論文詳情頁底部留言
添加小助手領取禮物
*每位用戶僅限領取一次
想要贏取以上周邊好禮?
點擊閱讀原文即刻推薦論文吧!
點擊以下標題查看往期推薦:?
??又為寫作思路熬到禿頭?16篇最新論文打包送你
??收下這 16 篇最新論文,周會基本不用愁
??這 16 篇最新論文,幫你輕松積攢知識點
??本周份AI論文推薦新鮮出爐!真的很skr了~
??想了解推薦系統最新進展?請收好這些篇論文
論文多到讀不完?不如看看我們為你精選的這15篇
本周有哪些值得讀的AI論文?進來告訴你答案
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取更多論文推薦
總結
以上是生活随笔為你收集整理的本周NLP、CV、机器学习论文精选推荐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google、Stanford导师带出的
- 下一篇: 4周,从入门小白到爬虫老炮儿,薪资水平超