自然语言生成技术现状调查:核心任务、应用和评估(3)
前面的自然語言生成技術現狀調查:核心任務、應用和評估(1)_流螢數點的博客-CSDN博客
自然語言生成技術現狀調查:核心任務、應用和評估(2)_流螢數點的博客-CSDN博客
目錄
4.視覺語言界面:圖像標題及其他
4.1數據
4.2 核心任務
4.2.1圖像分析
4.2.2文本生成或檢索
4.3語言如何植根于視覺數據?
4.4 視覺和語言:NLG的當前和未來方向
5.變體:生成具有風格、個性和情感的文本
5.1風格生成:文本變異與個性
5.2用感覺生成:情感和禮貌
5.3風格控制對神經網絡語言的挑戰
5.4風格與情感:結束語
4.視覺語言界面:圖像標題及其他
在過去的幾年里,人們對自動生成圖像標題的興趣激增,這是研究視覺和語言之間界面的更廣泛努力的一部分(Barnard, 2016)。圖像標題可以說是數據到文本生成的范例,其中輸入以圖像的形式出現。這項任務已經成為nlg社區和計算機視覺社區的研究重點,提高了兩組研究人員之間更有效的協同作用的可能性。除了它的實際應用之外,基于感知數據的語言長期以來一直是人工智能的科學興趣問題(見Winograd, 1972;Harnad, 1990;Roy & Reiter, 2005,因其對感知-語言接口的計算挑戰的各種理論觀點)。
圖6顯示了一些標題生成的示例,這些示例來自跨度約6年的出版物。當前的標題生成研究主要集中在Hodosh、Young和Hockenmaier(2013)所稱的場景中直接描述的元素的具體概念圖像描述上。正如Donahue、Hendricks、Rohrbach、Venugopalan、Guadarrama、Saenko和Darrell(2015)所言,圖像字幕是一種輸入是靜態和非順序的任務(一幅圖像,而不是視頻),而輸出是順序的(一個多詞文本),與對象標簽等非順序輸出(例如Duygulu, Barnard, de Freitas, & Forsyth, 2002;Ordonez, Liu, Deng, Choi, Berg, & Berg, 2016,等等)。
我們的討論將是簡短的,因為圖像字幕最近一直是Bernardi、Cakici、Elliott、Erdem、Erdem、Ikizler-Cinbis、Keller、Muscat和Plank(2016)的廣泛綜述的主題,也在Barnard(2016)關于視覺語言界面研究的更廣泛問題的背景下進行了討論。雖然本節借鑒了這些資料,但其組織方式有所不同,也更明確地提出了與nlg的聯系。
4.1數據
Bernardi等人(2016)提供了數據集的詳細概述。Ferraro、Mostafazadeh、Huang、Vanderwende、Devlin、Galley和Mitchell(2015)對數據集進行了系統的比較,用于標題生成和伴隨在線資源的可視化問題回答。
數據集通常由配以一個或多個人類編寫的標題(大多是英語)的圖像組成,數據集通常由圖像和一個或多個人工編寫的字幕(大多是英文)組成,從人工創建的場景到真實的照片都不盡相同(Zitnick, Parikh, & Vander-Wende, 2013)。在后者中,使用最廣泛的是Flickr8k (Hodosh等人,2013),Flickr30k (Young, Lai, Hodosh, & Hockenmaier, 2014)和ms-coco (Lin等人,2014)。數據集,如sbu1m配標題照片數據集(Ordonez, Kulkarni, & Berg, 2011),包括用戶在Flickr等網站上分享的照片的自然出現的配標題;因此,其中包括的標題并不局限于具體的概念。還有一些專門的、特定于領域的數據集,如加州理工大學ucsd鳥類數據集(cub;沃,布蘭森,韋林德,佩羅納,和貝隆吉,2011年)。
在這一領域也有許多共同的任務,包括coco(“語境中的通用對象”)字幕挑戰6,作為大規模場景理解挑戰(lsun)7的一部分組織,以及多模態機器翻譯任務(Elliott,Frank, Sima’an, & Specia, 2016)。我們將討論圖像字幕系統的評價推遲到本文的第7節,在那里它作為一個整體在nlg評價的背景下進行討論。
4.2 核心任務
在圖像字幕系統中有兩個邏輯上可區分的子任務,即圖像分析和文本生成。這并不是說它們需要分別或按順序組織起來。但是,在討論體系結構之前,有必要簡要概述一下用于處理這兩個任務的方法。
4.2.1圖像分析
為標題目的處理視覺信息的方法主要有三組。
Detection
有些系統依賴于計算機視覺方法來檢測和標記對象、屬性、“東西”(通常映射到大量名詞,如草)、空間關系,可能還有動作和姿勢信息。這之后通常會有一個步驟,將這些輸出映射到語言結構(第二節和第三節討論的那種“句子計劃”),例如樹或模板(例如Kulkarni et al, 2011;楊,Teo, Daume III, & Aloimonos, 2011;米切爾等,2012;埃利奧特&德弗里斯,2015年;亞茨卡,加利,范德溫德,和澤特勒莫耶,2014年;庫茲涅佐娃,奧多涅斯,伯格,崔,2014)。由于性能取決于探測器的覆蓋率和準確性(Kuznetsova等,2014;Bernardi等人,2016),一些工作也探索了從金標準圖像注釋生成(Elliott & Keller, 2013;Wang & Gaizauskas, 2015;Muscat & Belz, 2015)或人工創造的場景,其中組件是預先知道的(Ortiz, Wolff, & Lapata, 2015)。
Holistic scene analysis
整體場景分析
這里使用了更全面的場景特征,依賴于通常無法識別對象、屬性等的特征。這些特征包括rgb直方圖、尺度不變特征變換(sift;Lowe, 2004),或空間結構的低維表示(如gist;Oliva & Torralba, 2001)等。這種類型的圖像處理通常用于根據檢索而不是根據標題生成來框定任務的系統。這類系統要么使用單模態空間,在標題檢索之前將查詢圖像與訓練圖像進行比較。(Ordonez等,2011;Gupta, Verma, & Jawahar, 2012),或利用多模態空間表示圖像和標題之間的接近性(例如Hodosh等人,2013;Socher, Karpathy, Le, Manning, & Ng, 2014)。
Dense image feature vectors
密集圖像特征向量
鑒于卷積神經網絡(cnn)在計算機視覺任務中的成功(例如,LeCun等人,2015),許多深度學習方法使用來自預訓練cnn的特征,如AlexNet (Krizhevsky, Sutskever, & Hinton, 2012)、vgg (Simonyan & Zisserman, 2015)或Caffe (Jia, Shelhamer, Donahue, Karayev, Long, Girshick, Guadarrama, & Darrell, 2014)。最常見的是,標題生成器使用來自預訓練網絡的激活層作為其輸入特征(e.g. Kiros, Zemel, &Salakhutdinov, 2014; Karpathy, Joulin, & Fei-Fei, 2014; Karpathy & Fei-Fei, 2015; Vinyals,Toshev, Bengio, & Erhan, 2015; Mao et al., 2015a; Xu et al., 2015; Yagcioglu, Erdem, &Erdem, 2015; Hendricks et al., 2016b).
4.2.2文本生成或檢索
根據圖像分析技術的類型,可以使用各種不同的方法生成標題,其中以下方法已得到確認。
Using templates or trees
使用模板或樹
依靠檢測器的系統可以在句子規劃階段將輸出映射到語言結構。例如,可以將對象映射到名詞,將空間關系映射到介詞,等等。Yao、Yang、Lin、Lee和Zhu(2010)使用半監督方法將圖像解析為圖表,然后通過簡單的語法生成文本。其他方法依賴于序列分類算法,如隱馬爾可夫模型(Yang等,2011)和條件隨機場(Kulkarni等,2011,2013)。Kulkarni等人(2013年,見圖6b中的例子)對模板和網絡衍生的n-gram語言模型進行了實驗,發現前者更流暢,但缺乏變化,這個問題我們在之前的實現中也提到過(第2.6節)。
在Midge系統中(Mitchell et al, 2012,見圖6d中的示例標題),輸入圖像表示為由物體/物體檢測、動作/姿勢檢測和空間關系組成的三元組。這些隨后被映射到名詞、動詞、介詞三元組,并使用樹替換語法實現。通過使用概率模型“幻覺”可能的單詞的能力,這一功能得到了進一步增強,也就是說,根據語料庫數據,插入沒有直接植根于對圖像本身執行的檢測,但有很高概率出現的單詞。在一項人類評估中,Kulkarni等人(2011)和Yang等人(2011)在一些標準(包括人類的相似性和正確性)上證明了Midge優于該系統。
Elliott和Keller(2013)使用視覺依賴表示(vdr),這是一種類似于依賴語法的形式主義,用于描述基于物理特征(如鄰近性和相對位置)的對象之間的空間關系。圖像的檢測在生成之前被映射到相應的vdr關系(參見Elliott & De Vries, 2015,以及圖6c中的示例)。Ortiz等人(2015)使用ilp來識別抽象場景中的對象對(Zitnick & Parikh, 2013),然后將它們映射到vdr。實現被框定為基于vdr-文本對的機器翻譯任務。在Lin和Kong(2015)的工作中也發現了識別空間關系的類似問題,他們使用場景圖作為基于語法的實現器的輸入。Muscat和Belz(2015)提出了一種樸素貝葉斯模型,基于物體接近度和重疊等圖像特征來預測空間介詞。
Using language models
使用語言模型
使用語言模型具有促進圖像-語言對聯合訓練的潛在優勢。如果它被用來克服語法或模板的限制,它還可能產生更有表現力或創造性的標題(如Midge的例子所示;Mitchell et al, 2012)。在某些情況下,在域外數據上訓練n-gram模型,Li、Kulkarni、Berg、Berg和Choi(2011)采用了網絡尺度的n-gram方法,Fang、Gupta、Iandola、Srivastava、Deng、Doll′ar、Gao、He、Mitchell、Platt、Zitnick和Zweig(2015)采用了最大熵語言模型。
大多數深度學習體系結構以普通rnn或長短期記憶網絡的形式使用語言模型(e.g. Kiros et al., 2014; Vinyals et al., 2015; Donahue et al.,2015; Karpathy & Fei-Fei, 2015; Xu et al., 2015; Hendricks et al., 2016b;Hendricks, Akata,Rohrbach, Donahue, Schiele, & Darrell, 2016a; Mao et al., 2016).?這些體系結構將標題生成建模為預測序列中的下一個單詞的過程。預測會受到迄今生成的標題歷史(或初始單詞的開始符號)和圖像特征的影響,如前所述,圖像特征通常是從物體檢測任務訓練的cnn中提取的特征。
Caption retrieval and recombination
標題檢索與重組
有些系統根據訓練數據檢索字幕,而不是生成字幕。這樣做的好處是,它保證了流暢性,特別是如果檢索的是整個標題,而不是部分標題。Hodosh等人(2013)使用多模態空間來表示訓練圖像和標題,將框架檢索作為識別與查詢圖像最近的標題的過程。“批量”標題檢索的想法有很多先例。例如,Farhadi, Hejrati, Sadeghi, Young, Rashtchian, Hockenmaier和Forsyth(2010)使用馬爾可夫隨機場將圖像解析為hobject,action, scenei三元組,并配以解析后的標題。通過將查詢圖像與訓練數據中的解析圖像進行比較,檢索查詢圖像的標題,并基于WordNet找到最相似的圖像。類似地,Im2Text (Ordonez et al, 2011)系統對查詢圖像的候選標題進行排序。Devlin, Gupta, Girshick, Mitchell和Zitnick (2015b)使用k近鄰方法,用藍葡萄酒(Papineni, Roukos, Ward, & Zhu, 2002)和蘋果酒(Vedantam, Zitnick, & Parikh, 2015)來量化標題相似度。馮和拉帕塔(2010)提出了一種不同的檢索觀點,他們使用提取摘要技術從新聞文章的周圍文本中檢索圖像描述和相關敘事片段。
批量檢索的一個潛在缺點是訓練數據中的標題可能與查詢圖像不匹配。例如,Devlin等人(2015b)指出,查詢與訓練圖像的相似度越低,系統返回的標題就越通用。一個可能的解決方案是使用部分匹配,檢索和重組標題片段。
Kuznetsova等人(2014)使用檢測器將查詢圖像與訓練實例進行匹配,以解析樹片段的形式檢索標題,然后對其進行重組。Mason和Charniak(2014)使用特定于領域的數據集提取描述,并使用視覺和文本詞匯袋聯合模型將其調整為查詢圖像。在深度學習范式中,Socher等人(2014)和Karpathy等人(2014)都使用了從依賴分析中衍生出來的單詞嵌入,它們與cnn圖像特征一起被投影到一個多模態空間中。Karpathy和Fei-Fei(2015)的后續工作表明,這種細粒度配對同樣適用于單詞序列,避免了依賴解析的需要。
最近,Devlin、Cheng、Fang、Gupta、Deng、He、Zweig和Mitchell (2015a)將最近鄰檢索方法與不同類型的用于標題生成的語言模型進行了比較,具體來說,是Fang等人(2015)的最大熵方法,一種基于lstm的方法,以及與cnn耦合的rnn用于圖像分析(例如Vinyals等人,2015;Donahue等,2015;Karpathy &飛飛,2015)。對字幕的語言質量的比較表明,所有模型都有復制訓練集中觀察到的字幕的顯著趨勢,在測試集中對不同的圖像重復它們。這可能是由于數據缺乏多樣性,這也可以解釋為什么最近鄰方法優于基于語言模型的方法。
4.3語言如何植根于視覺數據?
正如前面的討論所表明的,對視覺數據和語言數據之間關系的看法取決于如何處理這兩個子任務。因此,依賴于檢測的系統往往在輸入處理和內容選擇與句子規劃和實現之間做出相當明確的區分。
Kulkarni等,2011;米切爾等,2012;Elliott & Keller, 2013)。語言表達和視覺特征之間的聯系是由檢測器的結果介導的。
例如,Midge (Mitchell et al, 2012)在用屬性(映射到形容詞)和動詞填充標題之前,使用對象檢測來確定要提到哪些名詞。類似地,Elliott和Keller(2013)使用vdr來確定空間表達。
基于檢索的系統依賴于單模態或多模態相似空間,更間接地表示語言表達式和圖像特征之間的聯系。在這里,相似性起著主導作用。在單模態空間中(Ordonez等,2011;Gupta等,2012;Mason & Charniak, 2014;庫茲涅佐娃,奧多涅斯,伯格,伯格,崔,2012;Kuznetsova et al, 2014),它是圖像進行比較,根據圖像的相似性檢索(部分)標題。許多深度學習方法也大致符合這個方案。例如,Yagcioglu等人(2015)和Devlin等人(2015b)對查詢圖像的標題進行檢索和排序,使用cnn表示視覺空間。相比之下,多模態空間涉及視覺和語言特征之間的直接映射(例如Hodosh等人,2013;Socher等,2014;Karpathy等人,2014年),使系統能夠從圖像映射到“相似的”——即相關或相關的標題。
許多關于視覺-語言整合的有趣工作正在用深度學習模型進行。Kiros等人(2014)引入了多模態神經語言模型(mrnn),對兩種主要體系結構進行了實驗。他們的模態偏倚對數雙線性模型(mlbl-b)基于語言背景和cnn圖像特征,使用相加偏差來預測序列中的下一個單詞。因子三向對數雙線性模型(mlbl-f)也對具有圖像特征的單詞的表示矩陣進行門化。與此相關,Donahue等人(2015)提出了一種cnn + lstm組合架構(Venugopalan, Xu, Donahue, Rohrbach, Mooney, & Saenko, 2015b中也使用了該架構;Venugopalan, Rohrbach, Darrell, Donahue, Saenko, & Mooney, 2015a,用于視頻字幕),其中下一個單詞被預測為前一個單詞和圖像特征的函數。在該體系結構的一個版本中,他們在每個時間步中將cnn特性注入到lstm中。在第二個版本中,他們使用兩個堆疊的lstms,第一個lstms接受cnn特征并產生一個輸出,該輸出構成下一個lstm的輸入,以預測單詞。最后,毛等人(2015a)對各種MRNN配置進行實驗,在一個體系結構中,在循環層之前有兩個單詞嵌入層,循環層又投影到一個多模態層中,其中語言特征與CNN特征相結合,獲得了最佳結果。上面的圖6e顯示了一個示例標題。
這些神經網絡模型闡明了在不同階段結合這兩種模式的后果,反映了Manning (2015, cf.第3.3.5節)提出的觀點,即這種范式鼓勵關注架構和設計。特別是,在Donahue等人(2015)的工作中,圖像特征可用于在rnn的開始或每個時間步處對重復的語言生成層進行偏移?;蛘?#xff0c;圖像特征可以在rnn之后的一個階段與語言特征相結合,如Mao等人的工作(2015a)。
4.4 視覺和語言:NLG的當前和未來方向
圖像到文本生成是nlg的一個領域,其中深度學習方法占據了明顯的主導地位。目前的工作集中于一些主題:
5.變體:生成具有風格、個性和情感的文本
根據前面的章節,讀者可以理解,nlg主要關注傳遞事實信息,無論是天氣數據摘要還是圖像描述。這一偏見也在引言中被標記出來,我們在引言部分簡要概述了一些應用領域,并指出,通知通常是nlg的目標,盡管并非總是如此。
然而,在過去十年左右的時間里,nlg文獻中有一種越來越大的趨勢,即也關注文本信息傳遞的一些方面,這些方面可以說是非命題的,也就是說,文本的特征嚴格來說不是基于輸入數據,而是與傳遞方式有關。在本節中,我們關注這些趨勢,從“文體變異”的廣義概念開始,然后轉向情感文本的生成和禮貌。
5.1風格生成:文本變異與個性
術語“語言風格”是指什么?我們所稱的“風格nlg”的大多數工作都避開了嚴格的定義,更傾向于用與當前問題最相關的術語來操作這個概念。
“風格”通常被理解為指詞匯、語法和語義的特征,這些特征共同有助于語言使用實例的可識別性,如與特定作者或特定情境有關(因此,人們可以區分文體形式的層次,或談到威廉·福克納風格的獨特特征)。這意味著,對風格的任何調查都必須關注其本身,至少在一定程度上,標記這種創作或情境變量的特征之間的變化。根據這一用法,本節回顧了nlg的發展,其中變異是主要關注點,通常是戰術層面,而不是戰略層面,其思想是給定的信息可以以不同的語言方式傳遞(參見van der Sluis&Mellish,2010)。例如,Power、Scott和Bouayad Agha(2003)明確采用了這一策略。
鑒于其對語言特征的強調,控制風格(無論其如何定義)是nlg非常感興趣的問題,因為它直接解決了選擇問題,這可以說是任何nlg系統的標志(參見Reiter,2010)。該領域的早期貢獻使用規則來定義文體特征,以根據語用或文體目標改變生成。例如,McDonald和Pustejovsky(1985)認為,“散文風格是在從概念表征層面到語言層面的過渡過程中所做決定的結果”(第61頁),從而將問題置于句子規劃和實現領域。DiMarco和Hirst(1993)也采用了這一立場,他們專注于句法變異,提出了英語和法語的文體語法。Sheikha和Inkpen(2011)提出了對SimpleNLG實現器的改編(Gatt等人,2009),以通過特定的特征,如縮略語(不是與不是)和詞匯選擇來處理正式與非正式語言。
Walker、Rambow和Rogati(2002)采用了文體變異的相關觀點,他們描述了現場句子規劃師如何適應不同交際目標的學習策略,這反映在句子計劃的修辭和句法結構中。規劃師接受了一種增強技巧的訓練,以學習句子計劃的特征與人類對不同交際目標的輸出樣本是否充分的評價之間的相關性。
與Walker等人(2002)一樣,當代的文體變異方法傾向于避開規則,轉而采用數據驅動的方法來識別語料庫中變異的相關特征和維度,這可以被認為是一種風格的歸納觀點,其中變異的特征是任何被認為相關的語言特征的分布。這一觀點的一個重要先例是Biber基于語料庫的風格和語域變化多維方法(Biber,1988),與DiMarco和Hirst(1993)的語法啟發方法大致相同。
Biber的模型是Paiva和Evans(2005)工作的核心,它展示了與第3.3節中討論的“全球”nlg統計方法的一些共同特征,因為它利用統計信息為相關選擇點的決策提供信息,而不是過濾過度生成模塊的輸出。Paiva和Evans(2005)使用患者信息傳單語料庫,對其語言特征進行因子分析,以確定兩個文體維度。然后,他們允許他們的系統生成大量文本,在多個選擇點(例如,選擇代詞與完整np)并保持跟蹤。然后在兩個文體維度上對文本進行評分,并開發了一個線性回歸模型,以根據系統所做的選擇預測維度上的評分。在測試過程中使用該模型預測每個選擇點的最佳選擇,給出所需的樣式。然而,風格是文本的一個全球性特征,盡管它會伴隨著局部決策。這些作者通過使用最佳優先搜索算法來識別線性模型評分的一系列局部決策,從而解決了這個問題,這最有可能最大化期望的風格效果,產生如下變化(來自Paiva&Evans,2005,第61頁):
(18) The dose of the patient’s medicine is taken twice a day. It is two grams.
(19) The two-gram dose of the patient’s medicine is taken twice a day.
(20) The patient takes the two-gram dose of the patient’s medicine twice a day.
(18) 病人的藥一天吃兩次。它是兩克。
(19) 患者每天服用兩次兩克的藥物。
(20) 患者每天兩次服用兩克的藥物。
一些作者(例如,Mairesse&Walker,2011,下文將詳細介紹)指出,某些特征一旦被選中,可能會“取消”或模糊其他特征的風格效果。這就提出了一個問題,即風格實際上是否可以被建模為一種線性的、相加的現象,在這種現象中,每個特征都獨立于其他特征(以其在回歸方程中的權重為模)而對風格的整體感知做出貢獻。
第二個問題是,文體變化是否可以以更具體的方式建模,例如,通過為特定作者量身定制風格,而不是與“正式”、“參與”等相關的通用維度。例如,Reiter等人(2005)對人類書面天氣預報進行的基于語料庫的分析發現,詞匯選擇部分取決于作者。有一項工作使用引用表達式的語料庫來研究這一點,如金槍魚語料庫(van Deemter,Gatt,van der Sluis,&Power,2012a),其中不同作者的多個引用表達式可用于給定的輸入域。例如,Bohnet(2008)和Di Fabbrizio、Stent和Bangalore(2008)探索用于學習特定屬性的個人偏好的統計方法,Viethen和Dale(2010)也采用了這一策略。Herv′as、Francisco和Gerv′s(2013)在實現指稱表達的一組語義屬性時,使用基于案例的推理來告知詞匯選擇,其中案例庫區分語料庫中的作者,以考慮個人的詞匯化偏好(另見Hervás、Arroyo、Francis、Peinado和Gervs,2016)。
Mairesse和Walker(20102011)在對話系統nlg的背景下,對個體差異的更雄心勃勃的觀點出現在他們的工作中。在這里,目的是改變發電機的輸出,從而投射出不同的性格特征。與Biber(1988)的模型類似,這里通過經典的“大5”模型(例如,John&Srivastava,1999)給出了人格的多維定義,其中人格是五個主要特征(例如內向/外向)的組合。盡管文體變異通常被定義為一種語言現象,人格的語言特征只間接地反映在口語或寫作中(一個假設是許多關于檢測文本中個性和其他特征的工作的基礎,包括Oberlander&Nowson,2006;Argamon,Koppel,Pennebaker,&Schler,2007;Schwartz,Eichstaedt,Kern,Dziurzynski,Ramones,Agrawal,Shah,Kosinski,Stillwell,Seligman,&Ungar,2013;Youyou,Kosinki,&Stillwell2015)。
Mairesse和Walker的人物系統最初基于對心理學文獻的詳盡審查(Mairesse&Walker,2010)得出的規則,在餐廳領域發展起來。隨后,該系統的數據驅動版本(Mairesse&Walker,2011)將一個務實的目標作為輸入,并像Paiva和Evans(2005)的系統一樣,列出了一系列真正有價值的風格參數,這一次代表了五種性格特征的得分。該系統使用從將樣本話語與人類性格判斷配對的數據集中獲取的機器學習模型,基于輸入特征估計文體特征的生成參數。例如,與更內斂的風格相比,反映高度外向的話語可能更冗長,涉及更多的臟話(21),這可能會表現出更多的不確定性,例如通過結巴和對沖(22)。
(21) Kin Khao and Tossed are bloody outstanding. Kin Khao just has rude staff. Tossed features sort of unmannered waiters, even if the food is somewhat quite adequate.
(22) Err... I am not really sure. Tossed offers kind of decent food. Mmhm... However, Kin Khao, which has quite ad-ad-adequate food, is a thai place. You would probably enjoy these restaurants.
(21)Kin Khao和Tossed非常出色。金考只是有粗魯的員工。盡管食物相當充足,但“亂扔”還是有點像是沒有管理的服務員。
(22)呃…我不太確定。Tossed提供了一種像樣的食物。嗯……然而,金考是一個泰國地方,那里有相當充足的食物。你可能會喜歡這些餐館。
Mairesse和Walker(2011)報告的人類受試者評估的一個有趣的結果是,讀者對給定文本實際反映的個性的判斷存在很大差異。這表明,這些心理特征與其語言效果之間的關系遠非直截了當。Walker、Lin、Sawyer、Grant、Buell和Wardrip Fruin(2011b)將基于規則的人物模型中的“大5”模型與基于語料庫的模型進行了比較,該模型取自電影劇本中的人物話語。這些模型用于生成增強現實游戲中角色的話語;他們的主要發現是塑造人物的風格與基于人格特征的模型相比,直接使用語料庫會產生更具體、更容易感知的特征,因為人格特征與個人風格之間的關系更為間接。在另一組為角色扮演游戲中的角色生成話語的實驗中,Walker、Grant、Sawyer、Lin、Wardrip Fruin和Buell(2011a)報告了通過根據電影對話中確定的特征調整人物角色的一些參數,成功將其移植到新的領域。從電影語料庫中學習到的模特被發現在風格上與他們實際所塑造的角色非常接近。
5.2用感覺生成:情感和禮貌
人格通常是根據特征來考慮的,這些特征在時間上相對穩定。然而,語言的使用可能不僅因個體的穩定特征而不同,也因個體的短暫情感狀態而不同情感nlg(De Rosis&Grasso,2000年的一個術語)與反映情緒狀態的變化有關,與人格特征不同,情緒狀態是相對短暫的。在這種情況下,目標可以是雙重的:(i)誘導接收者的情緒狀態;或(ii)反映制作人的情緒狀態。
正如Belz(2003)所指出的,就人格而言,情感和語言之間的關系還很不清楚。首先,目前尚不清楚是否只需要影響表面的語言選擇。一些作者認為,文本的情感影響會影響內容選擇;例如,在電子健康的一些應用中,這種立場已經被采用,在這些應用中,健康相關問題的報告應該對其潛在的情緒影響敏感(DiMarco,Covvey,Bray,Cowan,DiCiccio,Hovy,Mulholland,&Lipa,2007;Mahamood&Reiter,2011)。
然而,大多數關于情感nlg的工作都集中在戰術選擇上(例如,Hovy,1988;Fleischman&Hovy(2002);Strong,Mehta,Mishra,Jones,&Ram,2007;van Deemter,Krenn,Piwek,Klesen,Schr¨oder,&Baumann,2008;Keshtkar&Inkpen,2011)??梢援a生情緒影響的各種語言特征已經被確定,從增加使用冗余來增強對充滿情緒的信息的理解(Walker,1992;De Rosis&Grasso,2000),到增加使用第一人稱代詞和副詞,以及句子排序以實現強調或減少負面情緒影響(De Rosis&Grassa,2000)。
這項關于情感nlg的研究依賴于不同復雜程度和認知合理性的情感模型。然而,所有這些方法背后的共同趨勢是,情緒狀態應該影響詞匯、句法和其他語言選擇。那么問題是,這樣的選擇在多大程度上被系統的讀者或用戶實際感知。
在一項實證研究中,van der Sluis和Mellish(2010)報告了兩項實驗,研究了各種策略決定對文本對讀者情感影響的影響。在一個實驗中,文本向參與者提供了一份關于他們在能力測試中表現的(假)報告,其中包括人工誘導的變化,例如:
(23) Positive slant: On top of this you also outperformed most people in your age group
 with your exceptional scores for Imagination and Creativity (7.9 vs 7.2) and Logical-
 Mathematical Intelligence (7.1 vs. 6.5).
(24) Neutral/factual slant: You did better than most people in your age group with your
 scores for Imagination and Creativity (7.9 vs 7.2) and Logical-Mathematical
 Intelligence (7.1 vs. 6.5).
(23)積極傾向:除此之外,你的想象力和創造力(7.9對7.2)和邏輯數學智能(7.1對6.5)的優異成績也超過了同齡組的大多數人。
(24)中性/事實傾向:你的想象力和創造力(7.9 vs 7.2)和邏輯數學智能(7.1 vs 6.5)的得分比你這個年齡段的大多數人都好。
對這些文本的評估表明,情感策略決定對聽者情緒狀態的影響程度取決于一系列其他因素,包括讀者對文本所說內容的直接影響程度(在能力傾向測試的情況下,讀者會認為結果與個人相關)。這項研究提出的一個重要問題是如何衡量情緒:van der Sluis和Mellish(2010)使用標準化的自我評估問卷來評估閱讀文本前后情緒的變化,但衡量情緒的最佳方法仍然是一個懸而未決的問題。
作者或說話者所使用的語言中的情感傾向可能會影響到聽者或讀者可能感到“受到沖擊”的程度。這在交互系統中變得尤為重要,因為nlg組件在對話的上下文中生成語言。例如,考慮這些請求之間的差異:
(25) Direct strategy: Chop the tomatoes!
 (26) Approval strategy: Would it be possible for you to chop the tomatoes?
 (27) Autonomy strategy: Could you possibly chop the tomatoes?
 (28) Indirect strategy: The tomatoes aren’t chopped yet.
(25)直接策略:切碎西紅柿!
(26)批準策略:你有可能把西紅柿切碎嗎?
(27)自主策略:你能把西紅柿切碎嗎?
(28)間接策略:西紅柿還沒有切碎。
根據一個有影響力的報道(Brown&Levinson,1987),上述四種策略表現出不同程度的禮貌,這取決于面子。正面的表情反映了演講者希望與對話者分享她的一些目標;消極的面孔是指演講者希望自己的目標不會受到他人的影響。我們上面提到的與情感的聯系取決于這些區別:不同程度的禮貌反映了對聽眾的不同程度的“威脅”;因此,基于右臉策略的語言生成可以被視為情感nlg的一個分支。
沃克、卡恩和惠特克(1997年)在一項早期的、有影響力的提案中,提出了布朗和萊文森(1987年)框架的解釋,即上文(25-28)中例舉的四種對話策略。隨后,Moore、Porayska Pomsta、Zinn和Varges(2004)在生成教程反饋時使用了這一框架,其中語篇規劃師使用貝葉斯網絡來告知在給定上下文中與目標禮貌/情感值兼容的語言選擇(相關方法見Johnson、Rizzo、Bosma、Kole、Ghijsen和Van Welbergen,2004)。
Gupta、Walker和Romano(2007)也使用了Walker等人(1997)在polly系統中確定的四種對話策略,該系統使用基于條帶的計劃生成一個在協作任務中分布在兩個代理之間的計劃(另請參見Gupta,Walker,&Romano,2008)。在他們的評估中,一個有趣的發現是,對面部威脅的感知取決于言語行為;例如,請求可能更具威脅性。Gupta等人(2007)還指出,在對面部威脅的感知上可能存在文化差異(在本例中,英國和印度參與者之間)。
5.3風格控制對神經網絡語言的挑戰
在過去的幾年里,風格——尤其是情感——nlg引起了研究神經生成方法的研究人員的新興趣。這里可以觀察到的趨勢反映了我們對深度學習方法的總體概述(第3.3.5節)中概述的趨勢。
許多模型側重于響應生成(在對話或社交媒體交流的背景下),其中的任務是在給定話語的情況下生成響應。因此,這些模型很適合seq2seq或編碼器-解碼器框架(見第3.3.5節討論)。通常,這些模型利用社交媒體數據,尤其是來自Twitter的數據,這一趨勢至少可以追溯到Ritter、Cherry和Dolan(2011),他們將基于短語的機器翻譯模型用于響應生成。例如,Li等人(2016)提出了一種基于人物角色的模型,其中解碼器lstm以從與個人說話人/作者相關的推文中獲得的嵌入為條件。另一種模型對說話人和收信人的個人資料都有條件,目的是不僅要考慮說話人的“角色”,還要考慮其對不同對話者的可變性。Herzig等人(2017)也在研究推特數據,他們的解碼器基于“五大”模型從推特中提取的個性特征,而不是特定于說話人的嵌入。這樣做的好處是,不需要重新訓練以適應特定的說話者風格,就無法將發生器調整到特定的個性設置。雖然他們基于個性的模型沒有擊敗李等人的模型,但一項人類評估表明,法官能夠將高特質反應識別為比低特質反應更具表現力,這表明條件反射對風格有顯著影響。在對話背景下,Asghar等人(2017)提出在三個層面上實現情感反應:(a)通過使用情感詞典中的數據增強單詞嵌入;(b) 通過使用影響敏感波束搜索進行解碼;和(c)通過情感敏感損失功能訓練。
另一方面,許多模型將lstm置于反映情感或性格特征的屬性上,以期生成表達這些特征的字符串。
Ghosh、Cholet、Laksana、Morency和Scherer(2017)使用基于情感類別和情緒強度的語音語料庫訓練的lstms來驅動詞匯選擇。Hu等人(2017)使用可變自動編碼器和屬性鑒別器,分別控制生成文本的風格參數。他們嘗試控制情緒和時態,但將這一代人限制在最多16個單詞的句子中。相比之下,Ficler和Goldberg(2017)擴展了用于調節lstm的參數范圍,包括兩個與內容相關的屬性(情感和主題)和四個風格參數(長度、文本是否描述性、是否有個人聲音以及風格是否專業)。他們的制作人接受了電影評論語料庫的訓練。類似地,Dong、Huang、Wei、Lapata、Zhou和Xu(2017)提出了基于亞馬遜用戶評論語料庫的產品評論生成屬性到序列模型(另請參見Lipton等人,2016;Tang等人,2016,產品評論生成神經模型)。條件反射包括評論者id,這讓人聯想到Li等人(2016)的基于角色的反應模型;然而,它們還包括評級,其功能是調節輸出中的影響。他們的模型結合了一種注意力機制,在解碼過程中預測下一個單詞時,將注意力集中在輸入編碼的不同部分。例如,對于特定審閱者和特定產品,將輸入評級從1更改為5會產生以下差異:
(29) (Rating: 1) im sorry to say this was a very boring book. i didnt finish it. im not a
 new fan of the series, but this was a disappointment
 (30) (Rating: 5) this was a very good book. i enjoyed the characters and the story line.
 im looking forward to reading more in this series.
(29)(評分:1)很抱歉,這是一本很無聊的書。我沒有讀完。我不是這個系列的新粉絲,但這是一本令人失望的書
(30)(評分:5)。這是一部非常好的書。我喜歡角色和故事情節。我期待在本系列中內容。
5.4風格與情感:結束語
控制nlg中的風格、情感和基于個性的變化仍處于一個相當初級的階段,有幾個理論和計算意義的開放問題。
其中的一個問題是,如何最好地建模復雜的多維結構,如個性或情感;這個問題既涉及到告知語言選擇的模型的認知合理性,也涉及到可用于該任務的不同機器學習策略的實際可行性(例如,線性、加法模型與更“全局”的個性或風格模型)。這里同樣重要的是用于告知生成策略的數據類型:正如我們上面所看到的,許多情感nlg工作依賴于人類評委的評分。然而,最近在情感計算方面的一些工作對評級的使用提出了質疑,將其與基于排名和生理學的方法進行了比較(例如,Martinez,Yannakakis,&Hallam,2014;Yannakikis&Mart′?nez,2015)。這項研究和類似的研究可能對nlg研究人員具有很高的相關性。最近的一些工作依賴于使用ibm的personality Insights等工具自動提取個性特征(Herzig等人,2017)。隨著這類工具(另一個例子是語言查詢和字數或liwc,Pennebaker,Booth,&Francis,2007)變得更加可靠和廣泛可用,我們可能會看到對人類啟發的依賴性下降。
第二個重要的問題是,哪些語言選擇真正向讀者或聽眾傳達了預期的變化。雖然目前的系統使用了一系列的設備,從聚合策略到詞匯選擇,但尚不清楚哪些設備實際被認為具有預期效果。
第三個重要的研究途徑,尤其與交互系統相關,是適應性,即說話者(或系統)因對話者的話語而改變其語言選擇的方式(Clark,1996;Niederhoffer&Pennebaker,2002;Pickering&Garrod,2004),這一主題也開始在nlg中探索(Isard、Brockmann和Oberlander,2006;Herzig等人,2017)。
總結
以上是生活随笔為你收集整理的自然语言生成技术现状调查:核心任务、应用和评估(3)的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: NGINX免费配置二级域名及同时开启HT
- 下一篇: Python使用Plot库构图--详细教
