AI模型变身文豪:“看懂”新闻报道,命名图片更有文采
智東西5月21日消息,“一只狗在叫”、“一個男人坐在長凳上”,這是AI模型自動為新聞圖片生成的標題,這些標題看起來更像是學生習作,而不是專業(yè)記者的文筆。盡管目前已經(jīng)有許多自動生成圖片標題的AI模型,但大多數(shù)模型生成的標題比較簡單和乏味。
澳大利亞國立大學的研究人員發(fā)現(xiàn),這是因為現(xiàn)有的圖片標題生成模型大多將圖片視為一個孤立的對象,生成標題時沒有結(jié)合新聞文本。
近日,他們研發(fā)出一款端到端新聞圖片即時生成標題模型,能夠同時感知新聞文本和圖片內(nèi)容。該模型用《紐約時報》刊載的文章進行訓練,可以分析長文本內(nèi)容并識別出重點,生成更準確、更具描述性的圖片標題。
這項研究發(fā)表在學術(shù)網(wǎng)站arXiv上,論文題目為《轉(zhuǎn)換與講述:實體感知新聞圖片標題(Transform and Tell: Entity-Aware News Image Captioning)》。
論文鏈接:https://arxiv.org/abs/2004.08070
該模型演示文件:https://transform-and-tell.ml/
?
一、Transformer模型:結(jié)合文章上下文,生成標題更貼切
現(xiàn)有圖片標題生成模型大多采用長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)。LSTM模型依賴于文本提取和模版填充,這種方式有一些局限性。首先,標題語言受到模版限制,豐富性較差,其次,LSTM模型難以準確命名圖片中的對象,生成標題的準確性較低。另外,LSTM需要較長的訓練時間,面臨超長序列時難以實現(xiàn)單個或較少輸出。
為了克服這些局限性,澳大利亞國立大學研究人員決定采用Transformer模型。Transformer模型的優(yōu)勢在于可以學習長期依賴性,能根據(jù)文章文本和圖片內(nèi)容生成標題。Transformer模型包含一系列經(jīng)過預訓練的編碼器和解碼器。
此外,研究人員分析了發(fā)表在《紐約時報》上的圖片,發(fā)現(xiàn)其中四分之三的圖片包含人臉。為了提升模型生成標題的準確性,研究人員在模型中增加了兩個額外的模塊:一個專門用于檢測人臉,另一個專門用于檢測物體。
?
二、預訓練編碼器、解碼器,選用2個新聞數(shù)據(jù)庫
Transformer模型中,研究人員用4個編碼器分別生成圖片、人臉、物體、文章文本的高級矢量表示,解碼器根據(jù)這些表示在sub-word級別生成標題。
其中,圖片編碼器基于ResNet-152網(wǎng)絡(luò),在ImageNet數(shù)據(jù)集上預訓練,用最終塊在池化層之前的輸出作為圖片表示;人臉編碼器基于FaceNet網(wǎng)絡(luò),在VGGFace2數(shù)據(jù)集上預訓練;物體編碼器基于ResNet-152網(wǎng)絡(luò),在ImageNet數(shù)據(jù)集上預訓練;文本編碼器基于經(jīng)過預訓練的語言表達模型RoBERTa,可以為文本提供上下文嵌入。
研究人員設(shè)計用人臉檢測算法MTCNN檢測人臉邊緣,用目標檢測算法YOLOv3來檢測物體邊緣。解碼器采用按順序生成標題標記的函數(shù)。
?
研究人員選用GoodNews和NYTimes800k這兩個新聞文章數(shù)據(jù)庫對Transformer模型進行訓練、驗證和測試。
首先,研究人員選用GoodNews數(shù)據(jù)庫1月10日到3月18日收集的數(shù)據(jù),共選用257033篇新聞文章,462642張新聞圖片。其中每篇文章長度約為451個單詞、包含文字、新聞圖片和標題。
研究過程中,研究人員發(fā)現(xiàn)通用文章提取器不能識別出GoodNews數(shù)據(jù)庫中某些文章的HTML標記,因此造成文本丟失問題。
因此,研究人員又引入NYTimes800k新聞文章數(shù)據(jù)庫作為補充,使用數(shù)據(jù)庫從5月5日到8月19日收集的數(shù)據(jù)。NYTimes800k的容量、平均文章長度都比GoodNews的大,共包含444914篇新聞文章、792971張新聞圖片、其中每篇文章長度約為963個單詞。
?
三、Transformer模型多項指標領(lǐng)先LSTM模型
研究人員用兩個數(shù)據(jù)庫中的圖片作為對象,比較了LSTM模型和Transformer模型的表現(xiàn)。用BLEU-4分數(shù)、ROUGE分數(shù)、CIDEr分數(shù)、精確度(P)和召回率(R)作為評價指標。
BLEU-4分數(shù)用于衡量兩個詞之間的共現(xiàn)頻率;ROUGE分數(shù)用于衡量自動生成內(nèi)容與參考內(nèi)容之間的相似度;CIDEr用于衡量生成內(nèi)容是否抓取到關(guān)鍵信息;精確度用于衡量被識別為正類別的樣本中,正類別樣本占的比例;召回率用于衡量所有正類別樣本中,被正確識別為正類別的比例。以上指標分數(shù)越高,模型性能越好。
研究人員用現(xiàn)有模型Biten(Avg+CtxIns)和Biten(TBB+AttIns)作為基線。
?
對比結(jié)果顯示,Transformer模型的表現(xiàn)普遍優(yōu)于基線和其他LSTM模型,其中CIDEr分數(shù)的對比尤其明顯。
針對GoodNews數(shù)據(jù)庫中的圖片,增加人臉檢測模塊后,Transformer模型的CIDEr分數(shù)達到54.3。LSTM模型的CIDEr分數(shù)最高為28.6。
針對NYTimes800k數(shù)據(jù)庫中的圖片,增加人臉檢測模塊和物體檢測模塊后,除罕見名詞的召回率外,Transformer模型其余各項分數(shù)都為最高。其中,CIDEr分數(shù)最高,為54.4。而LSTM模型的CIDEr分數(shù)為24.9。
結(jié)語:或能結(jié)合維基百科,未來標題更加有趣
澳大利亞國立大學的研究人員設(shè)計出一款端到端新聞圖片即時生成標題模型,該模型能夠較準確地命名新聞圖片中的對象、生成語言多樣化的標題。
研究人員Alasdair Tran表示:“讓機器像人一樣思考一直是人工智能研究的重要目標,我們建立的模型讓我們離這個目標又近了一步。”
根據(jù)論文,這項技術(shù)或可用于網(wǎng)頁、社交媒體資料、醫(yī)學文檔等,幫助讀者解決閱讀障礙、更好地理解內(nèi)容。除了為個人閱讀者提供便利,這項技術(shù)還可以為國家、各類組織等增加視覺模型的可擴展性,或可實現(xiàn)從一張圖片向最近或相關(guān)的文章的擴展。
Tran說:“未來研究的一個可能方向是讓模型能夠參考其他類似文章或維基百科等背景知識信源,這將為模型提供更豐富的上下文,使其生成更有趣的標題。
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的AI模型变身文豪:“看懂”新闻报道,命名图片更有文采的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么腾讯的产品总能做得很好?
- 下一篇: 《Credit Risk Scoreca