AI学习笔记--人机对话的四种形态
AI學(xué)習(xí)筆記--人機對話的四種形態(tài)
><div class="show-content-free"><p>最近在籌備轉(zhuǎn)行 AI PM 由于之前的產(chǎn)品線也有做過類似 AI 的智能客服產(chǎn)品,所以打算先從人機對話這個角度入手。</p><p>以下文章結(jié)合了一些 case,對人機對話的四種形態(tài)做了較為淺顯的概念介紹,其中“以任務(wù)為驅(qū)動的多輪對話”做重點介紹。這篇文章比較適合想要簡單了解 AI 人機對話技術(shù)邏輯的 0 技術(shù)基礎(chǔ)PM 。學(xué)習(xí)資料來源有三角獸、圖靈機器人、攜程技術(shù)中心(知乎)。</p><p>“人機對話,是人工智能領(lǐng)域的一個子方向,通俗的講就是<b><i>讓人可以通過人類的語言(即自然語言)與計算機進行交互</i></b>。作為人工智能的終極難題之一,一個完整的人機對話系統(tǒng)涉及到的技術(shù)極為廣泛,例如計算機科學(xué)中的語音技術(shù),自然語言處理,機器學(xué)習(xí),規(guī)劃與推理,知識工程,甚至語言學(xué)和認知科學(xué)中的許多理論在人機對話中都有所應(yīng)用。”</p><p><b><i>人機對話可以分為以下四種形態(tài):開放域聊天、任務(wù)驅(qū)動的多輪對話、問答和推薦。當然,一個人機對話產(chǎn)品很可能是以上四種形態(tài)的混合。</i></b></p><h3><b>一、開放域聊天(open domain):</b></h3><p> 開放域聊天<b>非面向目標、語義意圖不明確。</b>用戶通常期望的是語義相關(guān)性和漸進性,對準確率要求較低。開放域聊天在現(xiàn)有的人機對話系統(tǒng)中,主要起到拉近距離,建立信任關(guān)系,情感陪伴,順滑對話過程(例如在任務(wù)類對話無法滿足用戶需求時)和提高用戶粘性的作用。這一形態(tài)的典型產(chǎn)品代表有微軟小冰,助理來也,siri,度秘...</p><p> 開放域聊天與以下的幾種對話(task oriented etc.)有較為明顯的區(qū)別,因為用戶可能不涉及具體任務(wù),場景更加開放,休閑。相應(yīng)的,用戶期望也會產(chǎn)生變化,從期望幫助完成某個硬性/客觀的任務(wù)(如多輪對話)到期望機器理解主觀的情感,并進行情感交流。借用 Google對話式交互設(shè)計指南中的話來說,就是<b>“人們會對媒介角色(如虛擬助理)產(chǎn)生像對真人一樣的心理反應(yīng),我們會本能地將人類個性與性格遷移到數(shù)字對話中去”。</b><b> </b>因此相較而言,這種產(chǎn)品的用戶體驗與交互設(shè)計就顯得格外重要。用戶希望跟一個有溫度的機器人聊天,希望自己的情感被理解并得到正向的反饋,當你在想象 ta 的時候,第一印象不是你的智能手機,而是在腦海里刻畫出一個或萌或可愛或悶騷的真實形象(比如 Her)。</p><p> 開放域聊天的技術(shù)路線通常有 <b>GenerationModel(生成模型)和 RetrievalModel(檢索模型)</b>。IR模型的優(yōu)勢在于有良好的<b>可讀性</b>,較好的回復(fù)<b>多樣性,</b>同時容易測評和分析;其缺點在于嚴重依賴數(shù)據(jù),對于 context 的理解處理較差。生成模式通常會基于 seq2seq 框架,好處在于不需要維護一個巨大的 Q-R dataset,且是 E2E 的學(xué)習(xí)模式;缺點在于可讀性差,回復(fù)單一,難以測評。兩種模型共同面臨的挑戰(zhàn)主要有:context的處理以及如何把 user profile 運用在回答的個性化處理上。以下是兩種模型對query 的處理過程:</p><p>(1)IR模型:</p><div class="image-package">(2)基于生成的技術(shù)路線
? ? ? 目前,open domain的人機對話存在有以下主要問題:(1)短文本語義關(guān)系計算;(2)基于IR的自動聊天框架下的上下文相關(guān)模型;(3)外部知識在聊天模型中的引入;(4)readability & diversity;(5)引入 user profile 的個性元素。
? ? ?開放域聊天的評價指標主要涉及單輪相關(guān)度;整體滿意度;用戶活躍度。
單輪相關(guān)度:
(1)相關(guān)性:不相關(guān)=-1;略相關(guān)=0;相關(guān)=1
(2)趣味性:相關(guān)但無趣=0;相關(guān)且有趣=1
整體滿意度:
(1)順暢度
(2)自然度
用戶活躍度:
(1)平均持續(xù)對話輪次
(2)用戶平均對話次數(shù)
二、以任務(wù)為驅(qū)動的多輪對話
1、定義:用戶帶著一定的目標前來使用產(chǎn)品,且由于任務(wù)的復(fù)雜性,用戶需要將需求分多輪進行描述。機器則需要給出每一輪的限制條件下的最佳決策,并且對當前狀態(tài)(context)進行記錄。
2、作用:能夠幫助用戶完成復(fù)雜任務(wù);縮短完成任務(wù)需要的路徑;減少為了完成任務(wù),搜集信息的時間成本
3、典型代表:阿里小蜜,京東JIMI等智能客服
4、特點和適用場景:用戶任務(wù)目標 / 任務(wù)完成路徑清晰。
個人認為,這種任務(wù)驅(qū)動的多輪對話形式,非常適合在一些專業(yè)性要求高的垂直領(lǐng)域,例如買車,理財(智能投顧),教育(課程匹配)...同時適合一些需要大量搜集信息才能完成的任務(wù)場景,例如股票的買賣(往往需要大量信息支撐決策),二手車交易etc. 智能機器人能夠把大量的信息整合,通過對話理解用戶需求,只從知識庫中抽取用戶需要的信息進行返回,節(jié)約信息獲取的時間成本。
5、產(chǎn)品評估指標:
自然語言理解程度:準確率、召回率、F-score
對話狀態(tài)追蹤(DST):概率分布的優(yōu)劣
對話結(jié)果準確性(最直觀的業(yè)務(wù)指標):對話輪次,任務(wù)完成率
6、交互過程分析(以一輪對話為例):
人鍵入自然語言→預(yù)處理成結(jié)構(gòu)化語義表示(dialogue act=communicative function+slot-value pair)→意圖識別?→當前狀態(tài)下的最優(yōu)決策結(jié)果輸出 →?記錄上下文語境(context,即需要維護當前狀態(tài)),對話狀態(tài)追蹤→人對于結(jié)果進行操作(認同結(jié)果 or 繼續(xù)交互)
step1 結(jié)構(gòu)化語義表示:
? ? ?即將自然語言的 query 識別成結(jié)構(gòu)化的語義表示。在對話系統(tǒng)中,這個結(jié)構(gòu)化的語義表示通常被稱作 dialogue act?由 communicative function 和 slot-value pairs 組成,其中?communicative function 表示 query 的類型(如:陳述需求,詢問屬性,否定,選擇疑問,等等)而每個?slot-value pair(槽) 則表達一個限制條件(constraint),也可理解為用戶目標的一個組成單元。常見的 communicative function 類型:
語義結(jié)構(gòu)化表示case: query = “幫我選一輛 3 月上市的國產(chǎn) SUV”?
? ? ?對應(yīng)的 dialogue act 可以表示為 inform(model = suv,nation = 國產(chǎn),time=Mar.)。這里? communicative function 是 inform ,表示陳述需求。而 “model = suv,nation = 國產(chǎn),time=Mar.” 是限制條件。有時候我們也把model,nation,time等稱之為“槽”,而suv,國產(chǎn),Mar.等稱之為槽值。下圖可以很好的解釋填槽的過程(圖源:https://yq.aliyun.com/articles/276269)
step 2 意圖識別與管理:
(i)用戶偏向于短句的表達。因此,識別用戶的意圖,要與上下文(context)進行結(jié)合。
(ii)在多輪交互中用戶會不斷的添加或修改意圖的子意圖,需要維護一份當前識別的意圖集合。
(iii)商品意圖之間存在著互斥,相似,上下位等關(guān)系。不同的關(guān)系對應(yīng)的意圖管理也不同。
(iv)屬性意圖存在著歸類和互斥的問題。
**這里有幾條 Google 的對話式交互設(shè)計指南中的幾條準則適用于 PM 和開發(fā)者:
(i)串聯(lián)(Threading):設(shè)計師要考慮到用戶鍵入的自然語言的特點,注意上下文和語境
(ii)短語句效率:人們在日常聊天中傾向使用短語句,因為與我們對話的人會自動地把短語句進行潛臺詞填充。因此機器也要注意對短語句的潛臺詞填充
(iii)用戶行為的多樣性:對于機器的一個回復(fù),不同的用戶會采用不同的詞匯和表達方式,產(chǎn)品設(shè)計應(yīng)該支持這種多樣性,設(shè)計師應(yīng)該關(guān)注“愉悅路徑”,并在所有的場景下保持體驗的穩(wěn)定性
step 3 當前狀態(tài)下的最優(yōu)決策結(jié)果輸出 & 對話狀態(tài)追蹤(DST)
對用戶意圖進行識別后,系統(tǒng)要反饋給當前意圖下的最優(yōu)決策結(jié)果,流程如下圖所示。
忘記是在哪里截到的圖了,有可能是攜程技術(shù)中心的專欄哈.. 侵刪
然而用戶的需求并不是一成不變的,目標也往往需要多輪對話才能達成。那么就需要我們對對話狀態(tài)進行追蹤,去結(jié)合上文語境,了解用戶目標到底是什么,給出全局的最優(yōu)策略解(而非單個對話輪次)。
eg:
第一輪對話:“幫我選一輛國產(chǎn) SUV” ,slot-value pairs:nation = 國產(chǎn),model=SUV.
第二輪對話:“想看看最新出的車”,slot-value pairs:nation =國產(chǎn),model=SUV,time=latest
我們要做的,是對 user goal 的識別。而 user goal 可以表示成 slot-value pairs 的組合。每一個 slot 上都可能有 value,每個 value對應(yīng)一個置信概率,于是能夠形成每個 slot 上的邊緣置信狀態(tài)(marginal belief);然后所有slot-value pairs的組合的概率分布就形成聯(lián)合置信狀態(tài)。隨著slot-value的數(shù)量變化,概率分布同樣發(fā)生變化,則會影響到我們輸出的結(jié)果。
這里有一點需要注意,即【槽繼承】
譬如,第一輪對話:
user:幫我選一輛國產(chǎn) SUV? ? ? bot:好的,你想要大概什么價位區(qū)間的呢?
user:20萬左右的吧? ? ? ? ? ? ? ? ? bot:好的(輸出結(jié)果)
user:算了,還是看看轎車吧
bot:這里要輸出 nation=國產(chǎn),price=20w+-5w,model=轎車,即繼承前序?qū)υ挼?nation 和 price 部分,而非再次詢問用戶的價格等意愿
step 4 人與結(jié)果的交互
關(guān)注人與結(jié)果的交互,意義在于兩個方面:
(i)產(chǎn)品是否真的有效率:即正確識別用戶意圖,并通過較少的對話輪次幫助用戶達成目標。
(ii)用戶畫像的建立:例如某些金融領(lǐng)域智能客服,記錄用戶與理財產(chǎn)品推薦列表這一結(jié)果的交互(瀏覽,僅點擊,點擊后成交...)能夠構(gòu)建更為豐富的用戶畫像,了解用戶的風(fēng)險偏好,資產(chǎn)配置傾向,從而不斷提高理財產(chǎn)品與用戶的匹配程度。
Reward 設(shè)計思路:
某篇文章把這種交互稱之為 Reward,并給出了電商商品推薦場景下 Reward 的設(shè)計思路:
a) 用戶的點擊的reward設(shè)置成1;
b) 成交設(shè)置成[1 + math.log(price + 1.0) ];
c) 其余的設(shè)置成0.1
三、問答
此處的問答,指的是一問一答,即直接根據(jù)用戶問題給出精準答案,如”北京今天多少度“。問答更類似信息檢索,雖然可能也涉及上下文處理,如”那么明天多少度“,但通常是通過只帶消解和 query 補全來完成。問答與多倫對話最根本的區(qū)別在于”系統(tǒng)是否需要維護一個用戶目標狀態(tài)的表示(我的理解是上述所說的slot-value pair的變化)和是否需要一個決策過程來完成任務(wù)。
四、推薦
上述三種對話模式基本上都基于用戶的主動 query,而推薦則是系統(tǒng)主動發(fā)起的。推薦往往基于用戶畫像做個性化定制;或基于已有的大量對話數(shù)據(jù)、給出用戶最可能詢問的query model,例如阿里客服界面中,用戶未發(fā)起 query時,系統(tǒng)即給出”猜你可能想問....“的question cards。
以上就是常見的 4種借助 AI 技術(shù)的人機對話式產(chǎn)品。
個人認為,產(chǎn)品經(jīng)理想要向AI PM 轉(zhuǎn)型,首先要對基礎(chǔ)概念有一定了解,同時要花費更多精力去驗證需求的真?zhèn)?#xff1a;AI與具體場景的結(jié)合,是不是真正地提高了用戶效率。
恩,那么就先到這里,午休結(jié)束,要上班啦!
下次有空聊聊所謂的“智能助理”~
總結(jié)
以上是生活随笔為你收集整理的AI学习笔记--人机对话的四种形态的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: dockerfile拉取python3.
- 下一篇: NLP-美团技术团队(搜索-推荐-召回排