每天接触大量论文,看看他们是怎样写笔记的 | PaperDaily #09
在碎片化閱讀充斥眼球的時(shí)代,越來越少的人會(huì)去關(guān)注每篇論文背后的探索和思考。
在這個(gè)欄目里,你會(huì)快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。
點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?9?篇文章你是不是也經(jīng)常在讀完一篇論文之后沒多久就忘記內(nèi)容了?
其實(shí)這只是人類記憶曲線的正常表現(xiàn),不要因此而出現(xiàn)「真沒用」「白讀了」之類的想法,讀論文也并不是為了「記憶」,而是為了「思考」。當(dāng)然,有一個(gè)準(zhǔn)確清晰的記憶可以讓思考變得更加輕松。
也許你會(huì)想「論文筆記?沒寫過!我水平不夠啊!」別擔(dān)心,本期我們精選了四位PaperWeekly 社區(qū)用戶的論文筆記,大家在增長(zhǎng)知識(shí)點(diǎn)的同時(shí),還能快速 get 怎樣寫一份「真正有用的論文筆記」。
多文本摘要
■?論文 | Improving Multi-Document Summarization via Text Classification
■ 鏈接 | http://www.paperweekly.site/papers/982
■ 作者 | JingwenJessica
提出問題?
文章指出目前 MDS 遇到的問題是用于訓(xùn)練的 datasets 太少,而文本分類相關(guān)的 datasets 更多一些。?
作者觀察?
作者觀察到的一個(gè)事實(shí)是不同分類的文章,摘要的風(fēng)格也不同。颶風(fēng)類的文章摘要側(cè)重于描述颶風(fēng)的路徑和帶來的損傷;而自傳類的文章摘要側(cè)重于人物的簡(jiǎn)歷和貢獻(xiàn)。?
提出模型?
基于上述兩點(diǎn),作者提出了 TCSum 系統(tǒng),TCSum 是結(jié)合文本分類的多文本摘要,TCSum 系統(tǒng)的 contributions :?
a. 利用文本分類的 datasets 優(yōu)化了用于摘要的 document representations;?
b. 不同分類的文章生成不同風(fēng)格的摘要;
c. 不需要人工標(biāo)注 features。
TCSum 系統(tǒng)?
包括 text classification model 和 summarization model 兩部分,用同一個(gè) document embedding。?
? 利用 CNN 模型生成 document embedding:在 pre-trained word embedding 上用 tanh 做 convolution operations,用 max-over-time polling 做 polling operations 生成 sentence embedding,Sentence embedding 做 average pooling 即為 documentt embedding。
? Text Classification Model:document embedding 上用 softmax 后作為文本分類的概率分布。用 cross entropy 做為 cost function。
? Summarization Model:Document embedding 上用 tanh 后作為文本摘要“含義”的特征向量,這就是文中提到的 transformed embedding (summary embedding)。 做 tanh 時(shí)用到的權(quán)重 w 也和文本分類相關(guān)。句子 salience score:summary embedding 和 sentence embedding 做 cosine similarity,pairwise ranking strategy。
? Datasets:DUC,the New York Times (NYT) Annotated Corpus
情感分類
■?論文 |?Learning to Generate Reviews and Discovering Sentiment
■ 鏈接 |?http://www.paperweekly.site/papers/683
■ 作者 |?xwzhong
Note
1. 文章使用 Amazon 商品評(píng)論數(shù)據(jù)(38G)訓(xùn)練了一個(gè) 1 層 4096 個(gè) unit 的語(yǔ)言模型,這 4096 個(gè) unit 中,發(fā)現(xiàn)了一個(gè) sentiment unit,能指示待 encoded 中每個(gè)字(或詞)的情感極性(正面或負(fù)面),另外該句子 encoded 后,還能判斷整個(gè)句子的情感極性,在 IMDB 數(shù)據(jù)集上,錯(cuò)誤率降低到 7.7%(state of art 方法為 5.91%)。?
2. 訓(xùn)練好語(yǔ)言模型后,通過很少的標(biāo)注數(shù)據(jù)(30個(gè))就能超過在 Stanford sentiment treebank 數(shù)據(jù)集下的 state of art 方法。
3. 在使用語(yǔ)言模型生成句子時(shí),能通過人工直接控制 sentiment unit 的值來決定所生成文本的情感。?
Comment
1. 語(yǔ)言模型仍有很多未知的潛力,對(duì)于 hidden unit,我們對(duì)其仍知之甚少。
2. 文本中沒提及如何尋找這個(gè) sentiment unit,但是可以嘗試使用已標(biāo)注的相近領(lǐng)域情感分類數(shù)據(jù)來找。
3. 其它 unit 是不是也反映了數(shù)據(jù)在某方面的特點(diǎn),已知的有句子長(zhǎng)度,會(huì)包含語(yǔ)義上的轉(zhuǎn)折 unit??
4. seq2seq 會(huì)不會(huì)有同樣的 unit??
5. 如果 language model 有很多理想的 unit(大家想通過這些 unit 來控制生成),是不是會(huì)有 lang2seq 模型(language to sequence),這樣既利用了 language model 能用大量數(shù)據(jù)無監(jiān)督學(xué)習(xí)的特點(diǎn),還能利用 seq2seq end2end 的特性。?
Practice
1. 通過領(lǐng)域訓(xùn)練得到的 language model 在特定領(lǐng)域使用時(shí),如果語(yǔ)料的 overlap 不高,效果不一定特別好,因此可在通用領(lǐng)域訓(xùn)練好的 model 基礎(chǔ)上,用待解決問題領(lǐng)域的數(shù)據(jù)進(jìn)行 fine tuning。其它運(yùn)用還有 word2vec。?
2. 利用好這個(gè)已發(fā)現(xiàn)的 sentiment unit,不僅可以減少人工標(biāo)注數(shù)據(jù)來訓(xùn)練情感分類器,還能直接控制文本生成等等。?
More Reading
[1] http://it.sohu.com/20170407/n486996650.shtml?
[2] https://github.com/openai/generating-reviews-discovering-sentiment
生成式對(duì)抗網(wǎng)絡(luò)
■?論文 |?Adversarial Generation of Training Examples for Vehicle License Plate Recognition
■ 鏈接 |?http://www.paperweekly.site/papers/421
■ 作者 |?WarBean
在 OCR 文字識(shí)別中,可利用的數(shù)據(jù)主要有三類:采集自真實(shí)世界的有標(biāo)注樣本(labelled real sample),采集自真實(shí)世界的無標(biāo)注樣本(unlabelled real sample),以及人工生成的有標(biāo)注樣本(labelled generated sample)。一般來說,labelled real 需要標(biāo)注人員手動(dòng)標(biāo)注,獲得成本高,數(shù)量沒法太多;unlabelled real 采集成本低,可以比前者多很多;而 labelled generated 則要多少有多少。?
如果光用 labelled real 訓(xùn)練模型,很容易因?yàn)閿?shù)量太少而使模型過擬合,所以一個(gè)常見的做法是先用大量的 labelled generated 預(yù)訓(xùn)練,再用少量 labelled real 去 fine tune,這種做法往往可以獲得不錯(cuò)的效果。?
問題是人工生成的樣本往往和真實(shí)樣本有差異,所以用它們來預(yù)訓(xùn)練會(huì)給模型參數(shù)帶來一定的先驗(yàn)偏差,從而損害其在真實(shí)樣本分布上的性能;另一方面,如此大量的 unlabelled real 用不上,也實(shí)在是一種浪費(fèi)。如果能夠利用上這些 unlabelled real 數(shù)據(jù),來幫助模型更好地學(xué)習(xí)真實(shí)分布下的識(shí)別模型,就能夠取得更好的識(shí)別準(zhǔn)確率;或者反過來說,在達(dá)到同等準(zhǔn)確率的條件下,需要的人工標(biāo)注量可以更少。?
這篇論文就嘗試在車牌識(shí)別這個(gè)具體任務(wù)上實(shí)現(xiàn)上述效果,其大體思路是:?
1. 先生成一堆 labelled generated 的圖像;
2. 將 labelled generated 和 unlabelled real 兩堆圖片放一起,訓(xùn)練一個(gè) CycleGAN 實(shí)現(xiàn)這兩個(gè) domain 之間的相互轉(zhuǎn)換;?
3. 利用訓(xùn)練好的 CycleGAN 將大量 generated 的圖像轉(zhuǎn)換為 real 圖像樣式,同時(shí)又保持其圖像中的文本內(nèi)容不變,因此我們能夠知道其 ground truth label;
4. 如此一來就可以得到大量的仿照真實(shí)樣本的 labelled data,用這些轉(zhuǎn)換后的數(shù)據(jù)去預(yù)訓(xùn)練識(shí)別模型;
5. 再在 labelled real 上 fine tune,最終可以獲得明顯的性能提升。?
下面 4 幅圖分別是人工生成樣本、CycleGAN 轉(zhuǎn)換樣本、CycleWGAN(本文改進(jìn)的一個(gè)變種)轉(zhuǎn)換樣本、真實(shí)樣本的樣子:
不得不說這篇論文對(duì)付的場(chǎng)景還是偏簡(jiǎn)單的,首先是真實(shí)數(shù)據(jù)的樣式其實(shí)沒有太復(fù)雜,其次是人工生成的樣本就已經(jīng)很接近真實(shí)數(shù)據(jù)了,要轉(zhuǎn)換過去并不會(huì)太困難。
文中給出了多項(xiàng)對(duì)比實(shí)驗(yàn)結(jié)果,下面是兩個(gè)比較有代表性的:
第一個(gè)表是在沒有用到 labelled real 的條件下,識(shí)別模型分別在隨機(jī)初始化、在人工生成樣本上訓(xùn)練、在 CycleGAN 轉(zhuǎn)換樣本上訓(xùn)練、在 CycleWGAN 轉(zhuǎn)換樣本上訓(xùn)練后,在真實(shí)測(cè)試集上的整行識(shí)別準(zhǔn)確率。?
可以看出這四種情況是一個(gè)比一個(gè)更加接近真實(shí)分布的。
第二個(gè)表就用到 labelled real 去 fine tune 了,同樣可以看出人工生成樣本加進(jìn)來有提升,但是 CycleWGAN 轉(zhuǎn)換樣本加進(jìn)來后提升得更多。
生成式對(duì)抗網(wǎng)絡(luò)
■?論文 |?Progressive Growing of GANs for Improved Quality, Stability, and Variation
■ 鏈接 |?http://www.paperweekly.site/papers/1008
■ 作者 |?lgpang
這篇文章就像 YY 小說中的主角一樣自帶主角光環(huán),從 GAN 存在的眾多問題出發(fā),提出了一個(gè)個(gè)新穎但是無往不利的方法。只是看結(jié)果就震撼莫名,通篇讀下來更是覺得 NVIDIA 一下子放了好多大招(至少對(duì)于 GAN 這個(gè)分支來說)。?
1. 以往的 GAN 生成低分辨率圖片穩(wěn)定迅速,但生成高分辨率圖片困難重重。這篇文章從簡(jiǎn)單的低分辨率圖片開始同時(shí)訓(xùn)練生成器和判別器,然后逐層增加分辨率,讓訓(xùn)練的難度每層只增加一點(diǎn)點(diǎn)。感覺就像是算法里面的暴力搜索到二分法搜索,大大提高了高分辨率圖片的生成速度及質(zhì)量。?
2. 以往沒有好的辦法去判斷 GAN 生成的圖片是好是壞,很多時(shí)候需要肉眼來看,有很大的主觀性,而且人能檢查的樣本空間不夠大。文章的第 5 節(jié)介紹了如何用統(tǒng)計(jì)的方法來直觀的判斷生成樣本的好壞,采用的思路是在各個(gè)尺度上抽取 7x7 個(gè)像素的局域碎片,比較生成圖片與訓(xùn)練圖片的局域結(jié)構(gòu)相似性。?
3. GAN 生成圖像的多樣性不好量化,當(dāng)判別器過強(qiáng)時(shí)生成器可能會(huì)塌縮到單個(gè)類。這篇文章不添加任何超參數(shù),只是將所有屬性在所有空間位置的統(tǒng)計(jì)標(biāo)準(zhǔn)差求平均,作為卷積神經(jīng)網(wǎng)絡(luò) Feature Map 的一個(gè)常量通道,就得到了更好的多樣性 -- 贊。?
4. 使用了一種“l(fā)ocal response normalization”方法來對(duì) FeatureMap 做歸一化,不清楚與 BatchNormalization 的效果相比有沒有提升。?
5. 在 WGAN-GP 的正規(guī)化項(xiàng)中使用非常大的 gamma 因子,從公式上看當(dāng)生成圖片與訓(xùn)練圖片相差過大時(shí),大的 gamma 因子可以讓生成分布快速漂移到訓(xùn)練圖像分布。
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!
? ? ? ? ??
?游戲時(shí)間
?GAN 還是不 GAN?
GAN主題論文共讀小組
論文提名√在線投票√論文共讀√
活動(dòng)形式:語(yǔ)音直播 + 協(xié)同批注
?
?游戲規(guī)則?
1. 自由推薦任何與GAN有關(guān)的論文
2. 投票支持你想讀的論文
3. 每周六根據(jù)投票結(jié)果選出本期論文
?
長(zhǎng)按識(shí)別二維碼,馬上報(bào)名
*添加好友請(qǐng)注明“GAN”
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的每天接触大量论文,看看他们是怎样写笔记的 | PaperDaily #09的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 免费课程 | 云脑机器学习实战训练营,中
- 下一篇: 14 篇论文为你呈现「迁移学习」研究全貌