當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

小蜜团队万字长文 | 讲透对话管理模型最新研究进展

發(fā)布時間：2024/8/23 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了小蜜团队万字长文 | 讲透对话管理模型最新研究进展小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對話管理模型背景

從人工智能研究的初期開始，人們就致力于開發(fā)高度智能化的人機(jī)對話系統(tǒng)。艾倫·圖靈（Alan Turing）在1950年提出圖靈測試[1]，認(rèn)為如果人類無法區(qū)分和他對話交談的是機(jī)器還是人類，那么就可以說機(jī)器通過了圖靈測試，擁有高度的智能。第一代對話系統(tǒng)主要是基于規(guī)則的對話系統(tǒng)，例如1966年MIT開發(fā)的ELIZA系統(tǒng)[2]是一個利用模版匹配方法的心理醫(yī)療聊天機(jī)器人，再如1970年代開始流行的基于流程圖的對話系統(tǒng)，采用有限狀態(tài)自動機(jī)模型建模對話流中的狀態(tài)轉(zhuǎn)移。它們的優(yōu)點是內(nèi)部邏輯透明，易于分析調(diào)試，但是高度依賴專家的人工干預(yù)，靈活性和可拓展性很差。

隨著大數(shù)據(jù)技術(shù)的興起，出現(xiàn)了基于統(tǒng)計學(xué)方法的數(shù)據(jù)驅(qū)動的第二代對話系統(tǒng)（以下簡稱統(tǒng)計對話系統(tǒng)）。在這個階段，增強(qiáng)學(xué)習(xí)也開始被廣泛研究運(yùn)用，其中最具代表性的是劍橋大學(xué)Steve Young教授于2005年提出的基于部分可見馬爾可夫決策過程(Partially Observable Markov Decision Process , POMDP)的統(tǒng)計對話系統(tǒng)[3]。該系統(tǒng)在魯棒性上顯著地優(yōu)于基于規(guī)則的對話系統(tǒng)，它通過對觀測到的語音識別結(jié)果進(jìn)行貝葉斯推斷，維護(hù)每輪對話狀態(tài)，再根據(jù)對話狀態(tài)進(jìn)行對話策略的選擇，從而生成自然語言回復(fù)。POMDP-based 對話系統(tǒng)采用了增強(qiáng)學(xué)習(xí)的框架，通過不斷和用戶模擬器或者真實用戶進(jìn)行交互試錯，得到獎勵得分來優(yōu)化對話策略。統(tǒng)計對話系統(tǒng)是一個模塊化系統(tǒng)，它避免了對專家的高度依賴，但是缺點是模型難以維護(hù)，可拓展性也比較受限。

近些年，伴隨著深度學(xué)習(xí)在圖像、語音及文本領(lǐng)域的重大突破，出現(xiàn)了以運(yùn)用深度學(xué)習(xí)為主要方法的第三代對話系統(tǒng)，該系統(tǒng)依然延續(xù)了統(tǒng)計對話系統(tǒng)的框架，但各個模塊都采用了神經(jīng)網(wǎng)絡(luò)模型。由于神經(jīng)網(wǎng)絡(luò)模型表征能力強(qiáng)，語言分類或生成的能力大幅提高，因此一個重要的變化趨勢是自然語言理解的模型從之前的產(chǎn)生式模型（如貝葉斯網(wǎng)絡(luò)）演變成為深度鑒別式模型（如CNN、DNN、RNN）[5]，對話狀態(tài)的獲取不再是利用貝葉斯后驗判決得到，而是直接計算最大條件概率。在對話策略的優(yōu)化上大家也開始采用深度增強(qiáng)學(xué)習(xí)模型[6]。另一方面，由于端到端序列到序列技術(shù)在機(jī)器翻譯任務(wù)上的成功，使得設(shè)計端到端對話系統(tǒng)成為可能，Facebook研究者提出了基于記憶網(wǎng)絡(luò)的任務(wù)對話系統(tǒng)[4]，為研究第三代對話系統(tǒng)中的端到端任務(wù)導(dǎo)向型對話系統(tǒng)提出了新的方向。總的來說，第三代對話系統(tǒng)效果優(yōu)于第二代系統(tǒng)，但是需要大量帶標(biāo)注數(shù)據(jù)才能進(jìn)行有效訓(xùn)練，因此提升模型的跨領(lǐng)域的遷移拓展能力成為熱門的研究方向。

常見的對話系統(tǒng)可分為三類：

聊天型，任務(wù)導(dǎo)向型和問答型。聊天型對話的目標(biāo)是要產(chǎn)生有趣且富有信息量的自然回復(fù)使得人機(jī)對話可以持續(xù)進(jìn)行下去[7]。

問答型對話多指一問一答，用戶提出一個問題，系統(tǒng)通過對問題進(jìn)行解析和知識庫查找以返回正確答案[8]。任務(wù)導(dǎo)向型對話（以下簡稱任務(wù)型對話）則是指由任務(wù)驅(qū)動的多輪對話，機(jī)器需要通過理解、主動詢問、澄清等方式來確定用戶的目標(biāo)，調(diào)用相應(yīng)的API查詢后，返回正確結(jié)果，完成用戶需求。通常，任務(wù)型對話可以被理解為一個序列決策過程，機(jī)器需要在對話過程中，通過理解用戶語句更新維護(hù)內(nèi)部的對話狀態(tài)，再根據(jù)當(dāng)前的對話狀態(tài)選擇下一步的最優(yōu)動作（例如確認(rèn)需求，詢問限制條件，提供結(jié)果等等），從而完成任務(wù)。

任務(wù)型對話系統(tǒng)從結(jié)構(gòu)上可分成兩類，一類是 pipeline系統(tǒng)，采用模塊化結(jié)構(gòu)[5]（如圖 1），一般包括四個關(guān)鍵模塊：

自然語言理解（Natural Language Understanding, NLU）：對用戶的文本輸入進(jìn)行識別解析，得到槽值和意圖等計算機(jī)可理解的語義標(biāo)簽。
對話狀態(tài)跟蹤（Dialog State Tracking, DST）：根據(jù)對話歷史，維護(hù)當(dāng)前對話狀態(tài)，對話狀態(tài)是對整個對話歷史的累積語義表示，一般就是槽值對(slot-value pairs)。
對話策略（Dialog Policy）：根據(jù)當(dāng)前對話狀態(tài)輸出下一步系統(tǒng)動作。一般對話狀態(tài)跟蹤模塊和對話策略模塊統(tǒng)稱為對話管理模塊（Dialog manager, DM）。
自然語言生成（Natural Language Generation, NLG）：將系統(tǒng)動作轉(zhuǎn)換成自然語言輸出。

這種模塊化的系統(tǒng)結(jié)構(gòu)的可解釋性強(qiáng)，易于落地，大部分業(yè)界的實用性任務(wù)型對話系統(tǒng)都采用的此結(jié)構(gòu)。但是其缺點是不夠靈活，各個模塊之間相對獨(dú)立，難以聯(lián)合調(diào)優(yōu)，適應(yīng)變化的應(yīng)用場景。并且由于模塊之間的誤差會層層累積，單一模塊的升級也可能需要整個系統(tǒng)一起調(diào)整。

圖 1. 任務(wù)導(dǎo)向型對話系統(tǒng)的模塊化結(jié)構(gòu)[41]

任務(wù)型對話系統(tǒng)的另一種實現(xiàn)是端到端系統(tǒng)，也是近年來學(xué)界比較熱門的方向9[11]（如圖 2），這類結(jié)構(gòu)希望訓(xùn)練一個從用戶端自然語言輸入到機(jī)器端自然語言輸出的整體映射關(guān)系，具有靈活性強(qiáng)、可拓展性高的特點，減少了設(shè)計過程中的人工成本，打破了傳統(tǒng)模塊之間的隔離。然而，端到端模型對數(shù)據(jù)的數(shù)量和質(zhì)量要求很高，并且對于填槽、API調(diào)用等過程的建模不夠明確，現(xiàn)階段業(yè)界應(yīng)用效果有限，仍處在探索中。

圖 2. 任務(wù)導(dǎo)向型對話系統(tǒng)的端到端結(jié)構(gòu)[41]

隨著用戶對產(chǎn)品體驗的要求逐漸提高，實際對話場景更加復(fù)雜，對話管理模塊也需要更多的改進(jìn)和創(chuàng)新。傳統(tǒng)的對話管理模型通常是建立在一個明確的話術(shù)體系內(nèi)（即先查找再問詢最后結(jié)束），一般會預(yù)定義好系統(tǒng)動作空間、用戶意圖空間和對話本體，但是實際中用戶的行為變化難測，系統(tǒng)的應(yīng)答能力十分有限，這就會導(dǎo)致傳統(tǒng)對話系統(tǒng)可拓性差的問題（難以處理預(yù)定義之外的情況）。另外，在很多的真實業(yè)界場景，存在大量的冷啟動問題，缺少足量的標(biāo)注對話數(shù)據(jù)，數(shù)據(jù)的清洗標(biāo)注成本代價高昂。而在模型訓(xùn)練上，基于深度增強(qiáng)學(xué)習(xí)的對話管理模型一般都需要大量的數(shù)據(jù)，大部分論文的實驗都表明，訓(xùn)練好一個對話模型通常需要幾百個完整的對話session，這樣低下的訓(xùn)練效率阻礙了實際中對話系統(tǒng)的快速開發(fā)和迭代。

綜上，針對傳統(tǒng)對話管理模型的諸多局限，近幾年學(xué)界和業(yè)界的研究者們都開始將焦點放在如何加強(qiáng)對話管理模型的實用性上，具體來說有三大問題：

可拓展性差

標(biāo)注數(shù)據(jù)少

訓(xùn)練效率低

我們將按照這三個方向，為大家介紹近期最新的研究成果。

對話管理模型研究前沿介紹

對話管理模型痛點一：可拓展性差

如前文所述，對話管理器由兩部分組成：對話狀態(tài)跟蹤器（DST）和對話策略（dialog policy）。傳統(tǒng)的DST研究中，最具代表的是劍橋大學(xué)的學(xué)者們在2017年提出的神經(jīng)信度跟蹤模型（neural belief tracker, NBT）[12]，利用神經(jīng)網(wǎng)絡(luò)來解決單領(lǐng)域復(fù)雜對話的對話狀態(tài)跟蹤問題。NBT 通過表征學(xué)習(xí)（representation learning）來編碼上輪系統(tǒng)動作、本輪用戶語句和候選槽值對，在高維空間中計算語義的相似性，從而檢測出本輪用戶提到的槽值。因此NBT可以不依賴于人工構(gòu)建語義詞典，只需借助槽值對的詞向量表示就能識別出訓(xùn)練集未見但語義上相似的槽值，實現(xiàn)槽值的可拓展。后續(xù)地，劍橋?qū)W者們對NBT進(jìn)一步改進(jìn)13，將輸入的槽值對改成領(lǐng)域-槽-值三元組，每輪識別的結(jié)果采用模型學(xué)習(xí)而非人工規(guī)則的方法進(jìn)行累積，所有數(shù)據(jù)采用同一個模型訓(xùn)練，從而實現(xiàn)不同領(lǐng)域間的知識共享，模型的總參數(shù)也不隨領(lǐng)域數(shù)目的增加而增加。在傳統(tǒng)的Dialogue Policy研究領(lǐng)域中，最具代表性的是劍橋?qū)W者們6提出的基于ACER方法的策略優(yōu)化。

通過結(jié)合 Experience replay 技巧，作者分別嘗試了trust region actor-critic 模型和episodic natural actor-critic 模型，驗證了AC系列的深度增強(qiáng)學(xué)習(xí)算法在樣本利用效率、算法收斂性和對話成功率上都達(dá)到了當(dāng)時最好的表現(xiàn)。
然而傳統(tǒng)的對話管理模型在可拓展性方面仍需改進(jìn)，具體在三個方面：

如何處理變化的用戶意圖；

如何變化的槽位和槽值；

如何處理變化的系統(tǒng)動作。

變化的用戶意圖

在實際應(yīng)用場景中，時常會出現(xiàn)由于用戶意圖未被考慮到，使得對話系統(tǒng)給出不合理回答的情況。如圖 3所示的例子，用戶的“confirm”意圖未被考慮，這時就需要加入新的話術(shù)來幫助系統(tǒng)處理這樣的情況。

圖 3. 出現(xiàn)新意圖的對話實例[15]

一旦出現(xiàn)訓(xùn)練集未見的新用戶意圖時，傳統(tǒng)模型由于輸出的是表示舊意圖類別的固定one-hot向量，若要包含新的意圖類別，向量就需要進(jìn)行改變，對應(yīng)的新模型也需要進(jìn)行完全的重訓(xùn)練，這種情況會降低模型的可維護(hù)性和可拓展性。論文[15]提出了一種“老師-學(xué)生”的學(xué)習(xí)框架來緩解這一問題，他們將舊模型和針對新用戶意圖的邏輯規(guī)則作為“老師”，新模型作為“學(xué)生”，構(gòu)成一個“老師-學(xué)生”訓(xùn)練架構(gòu)。該架構(gòu)使用了知識蒸餾技術(shù)，具體做法是：對于舊的意圖集合，舊模型的概率輸出直接指導(dǎo)訓(xùn)練新模型；對于新增的意圖，對應(yīng)的邏輯規(guī)則作為新的標(biāo)注數(shù)據(jù)來訓(xùn)練新模型。這樣就使得在新模型不再需要與環(huán)境進(jìn)行新的交互重新訓(xùn)練了。論文在DSTC2數(shù)據(jù)集上進(jìn)行實驗，首先選擇故意去掉 confirm 這個意圖，然后再將它作為新意圖加入對話本體中，依次驗證新模型是否具有很好的適應(yīng)能力。圖 4 是實驗結(jié)果，論文新模型（即Extended System）、直接在包含所有意圖的數(shù)據(jù)訓(xùn)練的模型（即 Contrast System）和舊模型進(jìn)行比較，實驗證明新模型對新意圖的識別正確率在不同噪聲情況下都不錯的擴(kuò)展識別新意圖的能力。

圖 4. 不同噪聲設(shè)置下各種模型的比較

當(dāng)然這種架構(gòu)仍然需要對系統(tǒng)進(jìn)行一定的訓(xùn)練，[16] 提出一種語義相似性匹配的模型CDSSM能夠在不依賴于標(biāo)注數(shù)據(jù)以及模型重新訓(xùn)練的前提下，解決用戶意圖拓展的問題。CDSSM先利用訓(xùn)練集數(shù)據(jù)中用戶意圖的自然描述直接學(xué)習(xí)出一個意圖向量（intent embedding）的編碼器，將任意意圖的描述嵌入到一個高維語義空間中，這樣在測試時模型可以直接根據(jù)新意圖的自然描述生成對應(yīng)的意圖向量，進(jìn)而再做意圖識別。在后面的內(nèi)容我們可以看到，有很多提高可拓展性的模型均采用了類似的思想，將標(biāo)簽從模型的輸出端移到輸入端，利用神經(jīng)網(wǎng)絡(luò)對標(biāo)簽 (標(biāo)簽命名本身或者標(biāo)簽的自然描述) 進(jìn)行語義編碼得到某種語義向量再進(jìn)行語義相似性的匹配。

[43]則給出了另外一種思路，它通過人機(jī)協(xié)同的方式，將人工客服的角色引入到系統(tǒng)線上運(yùn)行的階段來解決訓(xùn)練集未見的用戶意圖的問題。模型利用一個額外的神經(jīng)判決器根據(jù)當(dāng)前模型提取出來的對話狀態(tài)向量來判斷是否請求人工，如果請求則將當(dāng)前對話分發(fā)給線上人工客服來回答，如果不請求則由模型自身進(jìn)行預(yù)測。由于通過數(shù)據(jù)學(xué)習(xí)出的判決器有能力對當(dāng)前對話是否包含新意圖作一定的判斷，同時人工的回復(fù)默認(rèn)是正確的，這種人機(jī)協(xié)同的方式十分巧妙地解決了線上測試出現(xiàn)未見用戶行為的問題，并可以保持比較高對話準(zhǔn)確率。

變化的槽位和槽值

在多領(lǐng)域或復(fù)雜領(lǐng)域的對話狀態(tài)跟蹤問題中，如何處理槽位與槽值的變化一直是一個難題。對于有的槽位而言，槽值可能是不可枚舉的，例如，時間、地點和人名，甚至槽值集合是動態(tài)變化的，例如航班、電影院上映的電影。在傳統(tǒng)的對話狀態(tài)跟蹤問題中，通常默認(rèn)槽位和槽值的集合固定不變，這樣就大大降低了系統(tǒng)的可拓展性。

針對槽值不可枚舉的問題，谷歌研究者[17]提出了一個候選集（candidate set）的思路。對每個槽位，都維護(hù)一個有總量上限的候選集，它包含了對話截止目前最多k個可能的槽值，并賦于每個槽值一個分?jǐn)?shù)以表示用戶在當(dāng)前對話中對該槽值的偏好程度。系統(tǒng)先利用雙向RNN模型找出本輪用戶語句包含的中某個槽位的槽值，再將它和候選集中已有的槽值進(jìn)行重新打分排序，這樣每輪的DST就只需在一個有限的槽值集合上進(jìn)行判決，從而解決不可枚舉槽值的跟蹤問題。針對未見槽值的跟蹤問題，一般可以采用序列標(biāo)注的模型[18]，或者選擇神經(jīng)信度跟蹤器[12]這樣的語義相似匹配模型。

以上是槽值不固定的情況，如果對話本體中槽位也變化呢？論文[19]采用了槽位描述編碼器（slot description encoder），對任何槽（已見的、未見的）的自然語言描述進(jìn)行編碼，得到表示該槽的語義向量，和用戶語句一起作為輸入送入Bi-LSTM模型中，采用序列標(biāo)注的方式輸出識別到的槽值，見圖 5。該論文做了一個可接受的假設(shè)，即任何槽的自然語言描述是很容易得到的，因此設(shè)計了一個在多個領(lǐng)域具有普適性的概念標(biāo)注器（Concept Tagger）結(jié)構(gòu)，槽描述編碼器的實現(xiàn)是簡單的詞向量之和。實驗表明，該模型能迅速適應(yīng)新的槽位，相較于傳統(tǒng)方法，該方法的可拓展性有很大的提升。

圖 5. 概念標(biāo)注器結(jié)構(gòu)

隨著近幾年序列到序列技術(shù)的發(fā)展，直接利用端到端神經(jīng)網(wǎng)絡(luò)模型將DST的結(jié)果作為一個序列生成出來也是一個很熱門的方向，常見的技巧如注意力機(jī)制（attention mechanism）、拷貝機(jī)制（copy mechanism）均可以用來提高生成效果。在著名的多領(lǐng)域?qū)υ扢ultiWOZ數(shù)據(jù)集上，來自港科大的Pascale Fung 教授團(tuán)隊利用了拷貝網(wǎng)絡(luò)，顯著提高了不可枚舉槽的識別精度 [20]。他們提出的TRADE 模型如圖 6所示，每次檢測槽值時，模型會將領(lǐng)域和槽位的不同結(jié)合進(jìn)行語義編碼作為RNN解碼器的初始位置輸入，解碼器通過拷貝網(wǎng)絡(luò)，直接將對應(yīng)的槽值生成出來。通過生成的方式，無論是不可枚舉的槽值，還是變化的槽位的槽值，都能使用同一個模型完成，這可以做到領(lǐng)域間槽值信息的共享，也大大地提高了模型的泛化能力。

圖 6. TRADE模型框架

最近一個明顯的趨勢是將多領(lǐng)域DST看作一個機(jī)器閱讀理解的任務(wù)，將TRADE這種生成式模型改進(jìn)成鑒別式模型45。不可枚舉槽的追蹤利用類似SQuAD的機(jī)器閱讀理解任務(wù)[46]，從對話歷史和提問中找到對應(yīng)的 text span作為槽值，而可枚舉槽的追蹤則轉(zhuǎn)化成一個多項選擇的機(jī)器閱讀理解任務(wù)，從候選值中選擇正確的值作為預(yù)測出的槽值。通過結(jié)合ELMO,BERT等深度上下文詞表示，這些新提出的模型最終在MultiWOZ數(shù)據(jù)集上取得目前最好結(jié)果。

變化的系統(tǒng)動作

可拓展性問題的最后一個方面在于系統(tǒng)動作空間難以預(yù)定義。如圖 7所示，在設(shè)計一個電子產(chǎn)品推薦系統(tǒng)時，也許一開始并不會考慮到用戶會問到如何升級產(chǎn)品操作系統(tǒng)這樣的問題，但現(xiàn)實的情況是你無法限定用戶只問系統(tǒng)能解決的問題。如果系統(tǒng)動作空間事先框定，在用戶提出新問題時就會導(dǎo)致一連串的答非所問，導(dǎo)致極差的用戶體驗。

圖 7. 對話系統(tǒng)遇到未考慮的系統(tǒng)動作時的對話案例[22]

對此，我們需要考慮的是，如何設(shè)計更好的對話策略網(wǎng)絡(luò)，使得系統(tǒng)能夠快速的擴(kuò)展新的動作。首先的嘗試來自微軟[21]，他們試圖通過改變經(jīng)典的DQN結(jié)構(gòu)來實現(xiàn)系統(tǒng)在不受限動作空間上的增強(qiáng)學(xué)習(xí)。論文的對話任務(wù)是一個文字游戲闖關(guān)任務(wù)，每輪的動作是一句話，動作數(shù)目不定，選擇不同的動作故事情節(jié)就會有不同的發(fā)展。作者提出了新的模型Deep Reinforcement Relevance Network (DRRN)，通過語義相似性匹配的方式將當(dāng)前的對話狀態(tài)和各個可選的系統(tǒng)動作一一匹配得到Q函數(shù)。具體來看：某輪對話時，每個長度不定的動作文本會經(jīng)過神經(jīng)網(wǎng)絡(luò)編碼得到固定長度的系統(tǒng)動作向量，故事背景文本經(jīng)過另一個神經(jīng)網(wǎng)絡(luò)也得到固定長度的的對話狀態(tài)向量，兩個向量通過交互函數(shù)（如點積）生成最后的Q值。圖 8是論文設(shè)計模型結(jié)構(gòu)。實驗表明，在“Saving John”和“Machine of Death”兩個文字游戲上DRRN比傳統(tǒng)DQN（使用padding技巧）的表現(xiàn)更加優(yōu)異。

圖 8. DRRN模型。t輪有兩個候選動作，t+1輪有三個候選動作。

論文[22]則希望從對話系統(tǒng)整體的角度來解決這個問題，作者提出了增量學(xué)習(xí)對話系統(tǒng)（Incremental Dialogue System, IDS），如圖 9所示。首先系統(tǒng)通過Dialogue Embedding 模塊對對話歷史編碼得到上下文向量，再利用一個基于VAE的Uncertainty Estimation模塊根據(jù)上下文向量對當(dāng)前系統(tǒng)能否給出正確回答進(jìn)行一個置信度的評估。類似于主動學(xué)習(xí)的方式，若置信度高于閾值，則由對話管理器對當(dāng)前所有可選動作一一打分，經(jīng)過softmax函數(shù)預(yù)測出概率分布，若置信度低于閾值，則請求標(biāo)注人員對本輪的回復(fù)進(jìn)行標(biāo)注（選擇正確回復(fù)或創(chuàng)建新的回復(fù)），得到了新數(shù)據(jù)并入數(shù)據(jù)池里一起在線更新模型。通過這種人類教學(xué)（human-teaching）的方式，IDS系統(tǒng)不僅解決了不受限動作空間的學(xué)習(xí)問題，還可以快速地收集高質(zhì)量的數(shù)據(jù)，十分貼近實際生產(chǎn)應(yīng)用。

圖 9. IDS的對話系統(tǒng)整體框架圖

對話管理模型痛點二：標(biāo)注數(shù)據(jù)少

隨著對話系統(tǒng)應(yīng)用領(lǐng)域的多樣化，對數(shù)據(jù)的需求也更加多樣化，若想訓(xùn)好一個任務(wù)型對話系統(tǒng)，通常都需要盡可能多的該領(lǐng)域的數(shù)據(jù)，但一般來說，想要獲取高質(zhì)量的有標(biāo)注數(shù)據(jù)的成本很高。為此學(xué)者們進(jìn)行了各種研究嘗試，主要可分為三種思路：1) 用機(jī)器自動標(biāo)注數(shù)據(jù)，降低數(shù)據(jù)標(biāo)注的成本；2) 對話結(jié)構(gòu)挖掘，盡可能高效利用無標(biāo)注數(shù)據(jù)；3) 加強(qiáng)數(shù)據(jù)采集策略，高效獲取優(yōu)質(zhì)的數(shù)據(jù)。

機(jī)器自動標(biāo)注

由于人工標(biāo)注數(shù)據(jù)的代價大、效率低，學(xué)者們希望通過機(jī)器輔助人工來標(biāo)注數(shù)據(jù)，方法大致可分為兩大類：有監(jiān)督方法和無監(jiān)督方法。論文[23]提出一種架構(gòu)auto-dialabel，用層次聚類的無監(jiān)督學(xué)習(xí)方法將對話數(shù)據(jù)中的意圖和槽位自動分組，從而實現(xiàn)對話數(shù)據(jù)的自動標(biāo)注（類別的具體標(biāo)簽需要人工來定）。該方法是基于一個假設(shè)：相同意圖的表達(dá)可能會共享相似的背景特征。模型提取的初始特征包括詞向量、POS 標(biāo)注、名詞詞簇和LDA 四種特征。各個特征經(jīng)由自編碼器轉(zhuǎn)成相同維度的向量后進(jìn)行拼接，再采用RBF（radial bias function）函數(shù)計算類間距離進(jìn)行動態(tài)的層次聚類。距離最近的類將會自動合并，直到類間距離大于預(yù)設(shè)的閾值停止。模型框架如圖 10所示。

圖 10. Auto-dialabel 模型

論文[24]則采用有監(jiān)督聚類的方法來實現(xiàn)機(jī)器標(biāo)注。作者將每條對話數(shù)據(jù)看作是一個個圖節(jié)點，將聚類的過程看作是找出最小生成森林的過程。模型首先采用SVM在問答數(shù)據(jù)集上有監(jiān)督訓(xùn)練出節(jié)點和節(jié)點之間的距離得分模型，再結(jié)合結(jié)構(gòu)化模型和最小子樹生成算法來將對話數(shù)據(jù)對應(yīng)的類別信息作為隱變量推斷出來，從而輸出最佳的聚類結(jié)構(gòu)表示用戶意圖類別。

對話結(jié)構(gòu)挖掘

由于訓(xùn)練對話系統(tǒng)的高質(zhì)量帶標(biāo)注數(shù)據(jù)稀缺，如何充分地挖掘無標(biāo)注對話數(shù)據(jù)中隱含的對話結(jié)構(gòu)或信息也成為了當(dāng)今的研究熱點之一，隱含的對話結(jié)構(gòu)或信息在一定程度上有助于對話策略的設(shè)計和對話模型的訓(xùn)練。

論文[25]提出了一種用變分循環(huán)神經(jīng)網(wǎng)絡(luò)（variational RNN, VRNN）的無監(jiān)督方法自動學(xué)習(xí)對話數(shù)據(jù)中的隱藏結(jié)構(gòu)。作者給出兩種模型來獲取對話中的動態(tài)信息：Discrete-VRNN和Direct-Discrete-VRNN。如圖 11所示，x_t是第t輪對話，h_t表示對話歷史隱變量，z_t表示對話結(jié)構(gòu)隱變量（一維one-hot離散變量）。兩種模型的差別在于：對于D-VRNN，隱變量z_t取決于h_(t-1)；而對于DD-VRNN，隱變量z_t取決于z_(t-1)。VRNN通過最大整個對話的似然值，利用VAE的一些常用技巧，估計出隱變量z_t的后驗概率分布。

圖 11. Discrete-VRNN（D-VRNN）與Direct-Discrete-VRNN（DD-VRNN）的示意圖

論文實驗表明VRNN 要優(yōu)于傳統(tǒng)的HMM的方法，同時將對話結(jié)構(gòu)的信息加入到獎勵函數(shù)中，也有助于增強(qiáng)學(xué)習(xí)模型更快地收斂。圖 12 是經(jīng)過D-VRNN 挖掘出的餐館領(lǐng)域的隱變量z_t轉(zhuǎn)移概率的可視化圖。

圖 12. D-VRNN 對餐館領(lǐng)域的對話數(shù)據(jù)挖掘出的對話流結(jié)構(gòu)

CMU學(xué)者[26]也嘗試?yán)肰AE的方法，將系統(tǒng)動作作為隱變量推斷出來直接用于對話策略的選擇，這樣就能減輕預(yù)定義系統(tǒng)動作不夠全面帶來的問題。如圖 13所示，為了簡便起見，論文采用端到端的對話系統(tǒng)框架，基線模型是字級別的增強(qiáng)學(xué)習(xí)模型（即對話動作是詞表中的詞），通過encoder將對話歷史編碼，再利用decoder解碼生成對話回復(fù)，獎勵函數(shù)直接通過比對生成的對話回復(fù)語句和真實對話回復(fù)語句得到。作者提出的隱動作模型和基線模型的區(qū)別是encoder到decoder之間多了離散隱變量的后驗推理，對話動作由離散隱變量表示，沒有任何人為的干預(yù)定義。最終實驗證明，基于隱動作的端到端增強(qiáng)學(xué)習(xí)模型在語句生成的多樣性和任務(wù)完成率上均超過了基線模型。

圖 13. 基線模型和隱動作模型

數(shù)據(jù)采集策略

最近，谷歌研究者們提出了一種快速收集對話數(shù)據(jù)的方法[27]（見圖 14）：首先利用兩個基于規(guī)則的模擬器交互生成對話的outline，即用語義標(biāo)簽表示的對話流骨架；然后利用模板將語義標(biāo)簽轉(zhuǎn)寫為自然語言對話；最后利用眾包對自然語句進(jìn)行改寫，使得對話數(shù)據(jù)的語言表達(dá)更加豐富多樣。這種反向收集數(shù)據(jù)方法不僅收集效率高，而且數(shù)據(jù)標(biāo)注完整、可用性強(qiáng)，避免了收集領(lǐng)域數(shù)據(jù)的成本花費(fèi)和大量的人工處理。

圖 14. 對話outline，模板生成對話以及眾包重寫對話的示例

上述方法屬于機(jī)器-機(jī)器（machine-to-machine, M2M）的數(shù)據(jù)收集策略：先生成覆蓋面廣的對話數(shù)據(jù)語義標(biāo)簽，再眾包生成大量對話語料。其缺點在于，生成的對話相對局限，不能涵蓋真實場景的所有可能性，并且效果依賴于模擬器的好壞。

學(xué)界還有另外兩種常用于對話系統(tǒng)數(shù)據(jù)收集的方法：人-機(jī)對話（human-to-machine,H2M）和人-人對話（human-to-human, H2H）。H2H 方法要求用戶（由眾包人員扮演）和客服（由另一眾包人員扮演）進(jìn)行多輪對話，用戶負(fù)責(zé)基于某些指定的對話目標(biāo)（例如買機(jī)票）提需求，客服負(fù)責(zé)標(biāo)注對話標(biāo)簽和創(chuàng)建對話回復(fù)。這種模式被稱為 Wizard-of-Oz 框架，對話研究的諸多數(shù)據(jù)集如 WOZ[5], MultiWOZ[28]均采用此方式收集。H2H 方法可以得到最貼近實際業(yè)務(wù)場景的對話數(shù)據(jù)，但是需要為了不同的任務(wù)需要設(shè)計不一樣的互動界面，而且需要耗費(fèi)大量人力清理錯誤的標(biāo)注，成本相當(dāng)昂貴。H2M 的數(shù)據(jù)收集策略則是讓用戶和訓(xùn)練到一定程度的機(jī)器直接進(jìn)行對話在線收集數(shù)據(jù)，并且利用增強(qiáng)學(xué)習(xí)不斷改進(jìn)對話管理模型，著名的 DSTC2&3 數(shù)據(jù)集就是通過這種方法收集得到。H2M 方法的效果總體比較依賴于對話管理模型的初始效果，并且在線收集的數(shù)據(jù)噪聲較大，清理成本也會較高，影響模型優(yōu)化的效率。

對話管理模型痛點三：訓(xùn)練效率低

隨著深度增強(qiáng)學(xué)習(xí)在游戲圍棋領(lǐng)域的大獲成功，該方法在任務(wù)導(dǎo)向型對話領(lǐng)域也有廣泛應(yīng)用。例如論文[6]的ACER對話管理方法，使用了model-free 深度增強(qiáng)學(xué)習(xí)，通過結(jié)合Experience Replay、信度域約束、預(yù)訓(xùn)練等技巧，大大提高了增強(qiáng)學(xué)習(xí)算法在任務(wù)型對話領(lǐng)域的訓(xùn)練效率和穩(wěn)定性。

然而，簡單地套用增強(qiáng)學(xué)習(xí)算法并不能滿足對話系統(tǒng)的實際應(yīng)用。這主要是因為對話領(lǐng)域不像游戲圍棋那樣有清晰的規(guī)則、獎勵函數(shù)，動作空間簡單明確，還有完美的環(huán)境模擬器可以生成數(shù)以億計的高質(zhì)量交互數(shù)據(jù)。對話任務(wù)中，一般包括了多樣變化的槽位槽值和動作意圖，這使得對話系統(tǒng)的動作空間急劇增大且難以預(yù)定義。傳統(tǒng)扁平的增強(qiáng)學(xué)習(xí)（flat reinforcement learning）方法由于對所有的系統(tǒng)動作進(jìn)行one-hot編碼，會存在維度災(zāi)難，因此不再適用于處理動作空間非常大的復(fù)雜對話問題，為此學(xué)者們進(jìn)行了諸多研究嘗試，包括model-free RL、model-based RL和human-in-the-loop三個方向。

Model-free 增強(qiáng)學(xué)習(xí)–分層增強(qiáng)學(xué)習(xí)

分層增強(qiáng)學(xué)習(xí)（Hierarchical Reinforcement Learning, HRL）基于“分而治之”的理念，將復(fù)雜任務(wù)分解成多個子任務(wù)（sub-task），解決了傳統(tǒng)扁平的增強(qiáng)學(xué)習(xí)的維度災(zāi)難。論文[29]首次將分層增強(qiáng)學(xué)習(xí)（HRL）應(yīng)用到任務(wù)導(dǎo)向型對話領(lǐng)域，作者利用專家知識把復(fù)雜的對話任務(wù)在時序維度上拆分成多個子任務(wù)，例如一個復(fù)雜的旅行問題可以分解為訂機(jī)票、訂酒店、租車等子問題。根據(jù)這個拆分，他們設(shè)計了兩個層次的對話策略網(wǎng)絡(luò)，一個層次負(fù)責(zé)選擇和安排所有的子任務(wù)，另一個層次負(fù)責(zé)具體子任務(wù)的執(zhí)行。
他們提出的對話管理模型（如圖 15 所示）包括：

頂層策略（top-level policy），用于根據(jù)對話狀態(tài)選擇子任務(wù)；
底層策略（low-level policy），用于完成子任務(wù)的具體的某個對話動作；
全局對話狀態(tài)追蹤，記錄整體對話狀態(tài)。整個對話任務(wù)完成之后，頂層策略會收到外部獎勵（external reward）。

除此以外，模型還新增了內(nèi)部評定模塊（internal critic），用于根據(jù)對話狀態(tài)估計子任務(wù)完成的可能性（子任務(wù)的填槽程度），底層策略會根據(jù)子任務(wù)完成程度收到內(nèi)部評定模塊的一個內(nèi)部獎勵（intrinsic reward）。

圖 15. 任務(wù)型對話系統(tǒng)的分層增強(qiáng)學(xué)習(xí)框架

面對復(fù)雜的對話問題，傳統(tǒng)的增強(qiáng)學(xué)習(xí)的每一步?jīng)Q策都在選擇基本系統(tǒng)動作，比如詢問槽值或者確認(rèn)約束，而分層增強(qiáng)學(xué)習(xí)的先通過頂層策略選擇一大類基本動作的集合，再通過底層策略選擇當(dāng)前集合的基本動作，流程如圖 16所示。這種對動作空間的層次劃分，能夠考慮到不同子任務(wù)之間的時序約束關(guān)系，有助于完成復(fù)合對話任務(wù)（composite task）。并且論文通過加入內(nèi)部獎勵的方式，有效緩解了獎勵稀疏的問題，加快了增強(qiáng)學(xué)習(xí)的訓(xùn)練，也在一定程度上避免了對話在不同子任務(wù)之間頻繁切換，提高了動作預(yù)測準(zhǔn)確率。當(dāng)然動作的分層設(shè)計比較依賴專家知識，需要通過專家來確定子任務(wù)的種類，近期相應(yīng)地出現(xiàn)了一些對話子任務(wù)自動發(fā)現(xiàn)的工作30，通過無監(jiān)督的方法，對整個對話歷史的對話狀態(tài)序列進(jìn)行自動切分，從而避免人工構(gòu)建對話子任務(wù)結(jié)構(gòu)。

圖 16. 分層增強(qiáng)學(xué)習(xí)的策略選擇流程示意圖

Model-free 增強(qiáng)學(xué)習(xí)–封疆增強(qiáng)學(xué)習(xí)!

封疆增強(qiáng)學(xué)習(xí)（Feudal Reinforcement Learning, FRL）是另一種適用于大維度問題的增強(qiáng)學(xué)習(xí)方法。分層增強(qiáng)學(xué)習(xí)是把對話策略按照時間維度上的不同任務(wù)階段劃分成子策略，從而降低策略學(xué)習(xí)的復(fù)雜度；而封疆增強(qiáng)學(xué)習(xí)（FRL）是在空間維度上把策略進(jìn)行劃分，限制子策略負(fù)責(zé)的動作范圍，劃分了“管轄疆域”，從而降低子策略的復(fù)雜度。封疆增強(qiáng)學(xué)習(xí)（FRL）不劃分子任務(wù)，而是應(yīng)用了狀態(tài)空間的抽象化函數(shù)，從對話狀態(tài)中提取有用的特征。這種抽象化有利于封疆增強(qiáng)學(xué)習(xí)（FRL）在大型問題中的應(yīng)用以及在不同領(lǐng)域之間的遷移，具有較強(qiáng)的擴(kuò)展性。

劍橋?qū)W者們首次將封疆增強(qiáng)學(xué)習(xí)[32]運(yùn)用到任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)領(lǐng)域，將動作空間按照是否和槽位相關(guān)來進(jìn)行劃分，這樣只利用了動作空間的自然結(jié)構(gòu)而不需要額外的專家知識。他們提出了如圖 17所示的封疆策略結(jié)構(gòu)，該結(jié)構(gòu)的決策過程分兩步：

決定下一步動作是否需要槽位作為參數(shù)；

根據(jù)第一步的決策，以及對應(yīng)的不同槽位采用不同的底層策略選擇下一步動作。

圖 17. 封疆增強(qiáng)學(xué)習(xí)在任務(wù)導(dǎo)向型對話系統(tǒng)上的應(yīng)用

總的來說，分層增強(qiáng)學(xué)習(xí)（HRL）與封疆增強(qiáng)學(xué)習(xí)（HRL）都是將高維度的復(fù)雜動作空間進(jìn)行不同方式的拆分，以解決傳統(tǒng) RL 動作空間維度大導(dǎo)致訓(xùn)練效率低的問題。分層增強(qiáng)學(xué)習(xí)（HRL）對任務(wù)的分割合理，比較符合人類的理解，但是需要專家知識來拆分子任務(wù)。封疆增強(qiáng)學(xué)習(xí)（FRL）對復(fù)雜問題的拆分則直接考慮其動作本身的邏輯結(jié)構(gòu)，不考慮不同子任務(wù)之間的相互約束。

Model-based 增強(qiáng)學(xué)習(xí)

以上討論的屬于無模型（model-free）增強(qiáng)學(xué)習(xí)，它是通過和環(huán)境交互試錯得到大量弱監(jiān)督數(shù)據(jù)，再去訓(xùn)練一個價值網(wǎng)絡(luò)或者策略網(wǎng)絡(luò)，而不關(guān)心環(huán)境本身。與之相對的是基于模型的（model-based）增強(qiáng)學(xué)習(xí)，它的學(xué)習(xí)過程如圖 18。其特點是對環(huán)境直接進(jìn)行建模，利用和環(huán)境交互得到的數(shù)據(jù)學(xué)習(xí)出一個狀態(tài)和獎勵的概率轉(zhuǎn)移函數(shù)，即環(huán)境模型，然后系統(tǒng)可以和環(huán)境模型交互產(chǎn)生更多的訓(xùn)練數(shù)據(jù)，因此model-based增強(qiáng)學(xué)習(xí)一般比model-free增強(qiáng)學(xué)習(xí)的訓(xùn)練效率要高，尤其是在和環(huán)境交互代價昂貴的場景。但其效果取決于環(huán)境建模的好壞。

**圖 18. model-based的增強(qiáng)學(xué)習(xí)的流程
**

采用 model-based 增強(qiáng)學(xué)習(xí)來提高訓(xùn)練效率是最近研究熱點，微軟首先將經(jīng)典的 Deep Dyna-Q（DDQ）算法應(yīng)用到對話中[33]，如圖 19c 所示，DDQ 訓(xùn)練開始之前，先利用少量已有的對話數(shù)據(jù)對策略模型和環(huán)境模型（world model）進(jìn)行預(yù)訓(xùn)練，之后 DDQ的訓(xùn)練不斷循環(huán)三個步驟：

直接增強(qiáng)學(xué)習(xí) - 通過和真實用戶在線對話交互，更新策略模型并且儲存對話數(shù)據(jù)；
訓(xùn)練環(huán)境模型 -利用收集到的真實對話數(shù)據(jù)更新環(huán)境模型；
規(guī)劃（planning）-利用和環(huán)境模型交互得到的對話數(shù)據(jù)來訓(xùn)練策略模型。

其中環(huán)境模型（如圖 20）是一個神經(jīng)網(wǎng)絡(luò)，對環(huán)境的狀態(tài)轉(zhuǎn)換和獎勵進(jìn)行概率建模，輸入是當(dāng)前對話狀態(tài)以及系統(tǒng)動作，輸出是下一輪用戶動作、環(huán)境獎勵和對話終止變量。環(huán)境模型使得 DDQ 降低了在線增強(qiáng)學(xué)習(xí)（如圖 19a）對人機(jī)交互數(shù)據(jù)量的需求，也避免了和用戶模擬器交互（如圖 19b）質(zhì)量不高的問題。

環(huán)境模型與對話領(lǐng)域中的用戶模擬器比較相似，它們都可以用于模擬真實用戶的動作并和系統(tǒng)的對話管理模塊交互。但兩者不同之處在于用戶模擬器本質(zhì)是系統(tǒng)的外部環(huán)境，用于模擬真實用戶，環(huán)境模型是系統(tǒng)的一部分，屬于系統(tǒng)內(nèi)部模型。

在DDQ的工作基礎(chǔ)上，微軟研究者們做了更多的擴(kuò)展：為了提高環(huán)境模型產(chǎn)生的對話數(shù)據(jù)的真實性，他們提出[34]采用對抗訓(xùn)練的思想提高對話數(shù)據(jù)的生成質(zhì)量；針對何時使用和真實環(huán)境交互的數(shù)據(jù)，何時使用和環(huán)境模型交互的數(shù)據(jù)，論文[35]探討了可行方案；為了將真人交互也納入進(jìn)來，論文[36]給出了一個統(tǒng)一的對話框架。這種人類教學(xué)（human-teaching）的思想也是目前業(yè)界構(gòu)建對話管理模型的關(guān)注熱點，我們在下小節(jié)給出更多闡述。

Human-in-the-loop

我們希望能充分引入人的知識經(jīng)驗來生成高質(zhì)量數(shù)據(jù)，提高模型訓(xùn)練效率。Human-in-the-loop增強(qiáng)學(xué)習(xí)[37]就是一種將人類引入機(jī)器人訓(xùn)練過程的方法，通過設(shè)計好的人機(jī)交互方式，人類可以高效地指導(dǎo)訓(xùn)練增強(qiáng)學(xué)習(xí)模型。為了進(jìn)一步提升任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)的訓(xùn)練效率，針對對話問題的特性設(shè)計有效的human-in-the-loop方式成為了研究人員新的探索方向。

圖 21. 監(jiān)督式預(yù)訓(xùn)練、模仿學(xué)習(xí)和在線增強(qiáng)學(xué)習(xí)結(jié)合的復(fù)合式學(xué)習(xí)

谷歌研究者提出了一種人類教學(xué)和增強(qiáng)學(xué)習(xí)結(jié)合的復(fù)合學(xué)習(xí)方法[37]（如圖 21），在有監(jiān)督預(yù)訓(xùn)練和在線增強(qiáng)學(xué)習(xí)之間增加一個人類教學(xué)階段，讓人介入進(jìn)來打標(biāo)簽，避免了有監(jiān)督預(yù)訓(xùn)練導(dǎo)致的covariate shift 問題[42]。亞馬遜研究者也提出一種類似的人類教學(xué)框架[37]：每輪對話中，系統(tǒng)都推薦4條回復(fù)供客服專家選擇；然后客服專家決定是選擇4條回復(fù)中的一條，還是另外編輯新的回復(fù)；最后由客服專家把選擇好或者編輯好的回復(fù)發(fā)給用戶。利用這種方式，開發(fā)人員可以快速地更新對話系統(tǒng)能力，適合落地。

以上是系統(tǒng)被動地接受人對數(shù)據(jù)進(jìn)行標(biāo)注，但是好的系統(tǒng)也應(yīng)該學(xué)會主動提問、尋求人的幫助。論文[40]提出了陪伴式學(xué)習(xí)（companion learning）的架構(gòu)（如圖 22），在傳統(tǒng)的增強(qiáng)學(xué)習(xí)框架中加入老師的角色（即人），老師可以糾正對話系統(tǒng)（即學(xué)生）的回復(fù)（圖左側(cè)開關(guān)），也能以內(nèi)部reward的形式對學(xué)生的回復(fù)進(jìn)行評價（圖右側(cè)開關(guān)）。對于主動學(xué)習(xí)的實現(xiàn)，作者提出了對話決策確信度（decision certainty）的概念，通過dropout技巧對學(xué)生策略網(wǎng)絡(luò)進(jìn)行多次采樣，得到可取動作的最大概率近似估計，再通過計算該最大概率的若干對話輪次的滑動平均值作為學(xué)生策略網(wǎng)絡(luò)的決策確信度。確信度若低于目標(biāo)值，則根據(jù)確信度與目標(biāo)值的差距，決定老師是否參與進(jìn)來糾正錯誤和提供獎勵函數(shù)，確信度高于目標(biāo)值，則停止向老師學(xué)習(xí)，系統(tǒng)自行進(jìn)行判決。

圖 22. 老師糾正學(xué)生的回復(fù)（左側(cè)開關(guān)）或者對學(xué)生的回復(fù)做出評價（右側(cè)開關(guān)）

主動學(xué)習(xí)的關(guān)鍵在于估計出對話系統(tǒng)對自身決策的確信度，除了上述對策略網(wǎng)絡(luò)進(jìn)行dropout的方法，還有以隱變量為條件變量，計算策略網(wǎng)絡(luò)分布Jensen-Shannon散度的方法[22]、根據(jù)當(dāng)前系統(tǒng)對話成功率做判斷的方法[36]。

小蜜Conversational AI團(tuán)隊的對話管理框架

為了保證穩(wěn)定性和可解釋性，目前業(yè)界對話管理模塊多采用基于規(guī)則的方法。阿里巴巴-達(dá)摩院-小蜜Conversational AI團(tuán)隊在去年就開始嘗試對話管理模型化的工作，并進(jìn)行了深入地探索。在真實的對話系統(tǒng)建設(shè)中，我們需要解決兩個問題：1)如何獲得特定場景的大量對話數(shù)據(jù),2)怎么利用算法充分發(fā)揮數(shù)據(jù)的價值？

對于整個模型化的框架設(shè)計，目前我們規(guī)劃成四步走的路線（如圖 23所示）：

圖 23. 對話管理模型化四步走路線

第一步，先利用小蜜Conversational AI團(tuán)隊自主研發(fā)的對話工廠（dialog studio）快速構(gòu)建一個基于規(guī)則對話流的對話引擎（稱為TaskFlow），同時用類似的對話流去構(gòu)建一個用戶模擬器。在構(gòu)建好用戶模擬器和對話引擎之后，兩者采用M2M方式持續(xù)交互沉淀出大量的對話數(shù)據(jù)。

第二步，有了一定量的對話數(shù)據(jù)后，我們再利用有監(jiān)督學(xué)習(xí)訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)，構(gòu)建和規(guī)則對話引擎能力基本相當(dāng)?shù)膶υ捁芾砟Ｐ?#xff0c;實現(xiàn)對話管理的初步模型化。模型的設(shè)采用語義相似匹配和端到端生成兩種方法結(jié)合來實現(xiàn)可拓展性，對于動作空間較大的對話任務(wù)采用HRL進(jìn)行動作劃分。

第三步，有了初步的對話管理模型，在開發(fā)階段，我們讓系統(tǒng)和改進(jìn)的用戶模擬器或人工智能訓(xùn)練師進(jìn)行交互，通過off-policy ACER增強(qiáng)學(xué)習(xí)算法讓系統(tǒng)的對話能力持續(xù)地增強(qiáng)。

第四步，人機(jī)對話體驗達(dá)到初步實用之后，就可以上線運(yùn)行，引入人的因素，收集用戶真實交互數(shù)據(jù)，同時通過一些UI設(shè)計方便地引入用戶的反饋，持續(xù)不斷地更新強(qiáng)化模型。沉淀出大量人機(jī)對話數(shù)據(jù)也會進(jìn)一步進(jìn)行做數(shù)據(jù)分析和挖掘，用于客戶洞察。

目前，我們打造的基于增強(qiáng)學(xué)習(xí)的對話管理模型，在訂會議室這種中等復(fù)雜規(guī)模的對話任務(wù)上，和用戶模擬器交互的對話完成率可達(dá)80%，如圖24所示。

圖 24. 小蜜Conversational AI團(tuán)隊的對話管理模型框架和評價指標(biāo)

總結(jié)

本綜述圍繞對話管理（Dialog Management, DM）模型的最新前沿研究做了一個詳細(xì)的介紹，針對傳統(tǒng)對話管理的痛點劃分了三個大的方向：

可拓展性差
標(biāo)注數(shù)據(jù)少
訓(xùn)練效率低

在可拓展性方面，我們介紹了處理變化的用戶意圖、對話本體、系統(tǒng)動作空間的常用方法，主要有語義相似匹配方法、知識蒸餾方法和序列生成方法；對于標(biāo)注數(shù)據(jù)稀缺問題，我們介紹了機(jī)器自動標(biāo)注、對話結(jié)構(gòu)有效挖掘和數(shù)據(jù)高效收集策略三部分內(nèi)容；而針對傳統(tǒng)DM中RL模型訓(xùn)練效率低下的問題，學(xué)界有嘗試引入HRL、FRL等方法對動作空間進(jìn)行層次劃分，也有利用model-based RL對環(huán)境進(jìn)行建模提高訓(xùn)練效率，將human-in-the-loop引入對話系統(tǒng)訓(xùn)練框架亦是當(dāng)下十分活躍的研究方向。

原文鏈接
本文為阿里云原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的小蜜团队万字长文 | 讲透对话管理模型最新研究进展的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：美柚上云致力成为最懂女人的互联网企业
下一篇：母婴企业上云实现线上线下互动营销、一体

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

小蜜团队万字长文 | 讲透对话管理模型最新研究进展

對話管理模型背景

對話管理模型研究前沿介紹

對話管理模型痛點一：可拓展性差

變化的用戶意圖

變化的槽位和槽值

變化的系統(tǒng)動作

對話管理模型痛點二：標(biāo)注數(shù)據(jù)少

機(jī)器自動標(biāo)注

對話結(jié)構(gòu)挖掘

數(shù)據(jù)采集策略

對話管理模型痛點三：訓(xùn)練效率低

Model-free 增強(qiáng)學(xué)習(xí)–分層增強(qiáng)學(xué)習(xí)

Model-free 增強(qiáng)學(xué)習(xí)–封疆增強(qiáng)學(xué)習(xí)!

Model-based 增強(qiáng)學(xué)習(xí)

Human-in-the-loop

小蜜Conversational AI團(tuán)隊的對話管理框架

總結(jié)

總結(jié)