A flight (to Boston) to Denver - 基于转移的顺滑技术研究 | 论文访谈间 #22
「論文訪談間」是由 PaperWeekly 和中國中文信息學會青工委聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關注和認可。?這是第 22?期「論文訪談間」
論文作者 |?王少磊,車萬翔,劉挺,張岳,張梅山
(哈爾濱工業大學,新加坡科技與設計大學,黑龍江大學)
特約記者 | Chloe(香港中文大學)
聽幾條平時微信聊天發的語音,聽聽新聞上被采訪者的回答,或者看 YouTube 視頻的時候注意看自動生成的字幕,你發現了什么?對的,到處有口誤!比人們以為的要多得多。口誤一般是這種情形:說了幾個詞發現說錯了,接著說幾個語氣詞趁機想一下應該怎么說,然后用正確的表達糾正回來;或者反應迅速,說錯后瞬間就立刻糾正。?
放在口語環境中,這不是什么事兒,聽眾幾乎注意不到,而且能理解想表達的正確含義是什么。但是一旦脫離口語環境,把語音轉成文本,就會增加人們的閱讀難度。
試試看把朋友發給你的一條 30 秒的微信語音轉成文字,要花更長時間才能理解吧。如果還要對文本進行句法分析、機器翻譯、內容摘要等后續工作,這種不流暢現象就是一個大問題、會造成嚴重干擾。因此使自動語音識別得到的文本變得流暢易讀,對語音轉寫后處理格外重要。具體地說,就是要刪除其中的停頓詞、語氣詞、重復詞,我們稱之為“順滑”技術。?
來自哈爾濱工業大學社會計算與信息檢索研究中心的王少磊、車萬翔、劉挺,新加坡科技與設計大學的張岳、黑龍江大學的張梅山在“Transition-Based Disfluency Detection using LSTMs”一文中研究了對文本的順滑處理技術,該論文獲自然語言處理領域頂級國際會議 EMNLP 2017 錄用。
我們來簡單看一看這篇 paper:?
先看一個經典的順滑標注例子,請看圖1。
△?圖1:英文Switchboard語料庫里面標注有不流暢信息的例子
RM(reparandum):被丟棄或者被后面的詞所糾正的詞組
(+):表示 reparandum 結束的中斷點
IM(interregnum):緊跟在中斷點后,可能出現的停頓、語氣詞等
RP(repair):糾正 reparandum 的詞組
研究大量順滑標注例子后,作者發現:?
1. RM 語塊時長時短(英文語料中最長的 RM 語塊有 15 個單詞!),RM 語塊出現位置不固定,可能存在嵌套結構。因此,對長距離依賴現象進行建模非常重要。?
2. RM 語塊和其后的 RP 語塊往往有相似性。比如圖 1 中的 RM 語塊“to Boston”和其后的 RP 語塊“to Denver”,發現它們第一個詞相同都是 to,而且詞性組合也相同。因此,探索短語塊級別的表示非常有用。?
注意到這兩點,作者選擇基于轉移的方法。它可以建模長距離的依賴關系,而且能夠很好的利用塊級別的信息。?
之前已經有一些學者嘗試利用基于轉移的方法去解決順滑問題。他們將句法分析和順滑任務聯合起來。對傳統的基于轉移的依存句法分析模型,修改模型中的轉移動作,從而將順滑任務融入到句法分析中去。這種方法有自身的缺點:其一,這種聯合模型要求訓練數據同時標注句法和順滑信息,降低了算法的實用性,而且實際性能嚴重依賴于人工的特征工程;其二,句法分析的噪聲可能會對順滑任務的性能造成嚴重影響。?
所以作者選擇探索不帶句法信息的轉移系統。作者引入了一種基于轉移的順滑模型,不僅不依賴任何句法信息,而且還能充分利用塊級別的信息以及上下文的全局表示。通過采用和依存句法分析類似的解碼算法,遞增地構建和標記輸入句子中的不流暢塊。?
請看圖2。
△?圖2:處理輸入‘want a flight to boston to denver’時的模型狀態
模型狀態由四個部分組成(按從上到下從左到右的順序):?
O(output):一個用于表示已經被標記為流暢的詞的傳統的 LSTM?
A(action):一個用于表示轉移系統采取動作的完整歷史記錄的 LSTM
S(stack):一個用于表示部分已經被標記為不流暢的詞的 stack LSTM,用來捕獲塊級別信息
B(buffer):一個用于表示尚未被處理的句子的 Bi-LSTM?
輸入一個不流暢的句子。在初始時刻,O、A、S 都為空;B 是整句話,句子的首單詞在最前面。然后轉移系統采取動作,逐個處理單詞。對第一個單詞,如果它流暢,把它從 B 放入 O,同時清空 S,這一動作記為“OUT”;如果它不流暢,把它從 B 放入 S,這一動作記為“DEL”。就這樣產生了一個動作序列,最后輸出了一個流暢的句子。
請看圖3,輸入“a flight to boston to denver”,詳細列出了每步模型狀態。
△?圖3:處理“a flight to boston to denver”每步模型狀態
為了減少誤差傳播,作者特意采用了兩種策略:1. 柱搜索;2. Scheduled Sampling。?
在常用的英文 Switchboard 測試集的實驗表明,本文的模型與目前所有方法相比,取得了最好的結果。
作者有話說
1. 研究得不夠透徹之處?
目前的研究方案本質上還是基于數據驅動的,其性能嚴重依賴于數據本身,并不是在理解句子基礎上對其進行處理,這就導致其在實際應用中會出現很多奇葩的錯誤,比如當遇到“嗶哩 嗶哩”這個詞組時候,就會傾向于把前面的“嗶哩”給刪除掉,因為在訓練數據中,這種前后重復的詞組,大部分情況下都會把前面的詞給刪除掉。?
2. Future Work?
自動語音識別(ASR)得到的文本中的不流暢現象主要分為兩部分,一部分是 ASR 系統本身識別錯誤造成的,另一部分是 speaker 話中自帶的。順滑任務主要關注的是 speaker 話中自帶的不流暢現象,并沒有能力處理識別錯誤造成的不流暢現象。
要想構建一個高效實用的轉寫系統,還需要針對語音識別造成的錯誤進行處理,也就是在保留說話人真實意圖的基礎上,對句子進行適當的轉寫。
關于中國中文信息學會青工委
中國中文信息學會青年工作委員會是中國中文信息學會的下屬學術組織,專門面向全國中文信息處理領域的青年學者和學生開展工作。
?社區活動?
? 不得不讀的GAN??
GAN 是現在最熱門的研究方向之一,那么到底有哪些 paper 是值得一讀的?
為此,我們將在 PaperWeekly 社區發起一次?GAN專題論文推薦,歡迎大家一起參與推薦和 GAN 相關的論文。針對活動中出現的優質論文,我們將組織發起論文共讀,由一名學術大咖為活動參與者進行在線論文解讀。如果你推薦的論文被大家認可,獲得了全場最高點贊數,我們將為你送出一份?PaperWeekly 神秘大禮包。
?活動時間?
10 月 9 日-10 月 20 日
?活動地點?
http://www.paperweekly.site/activity/3
參與方式
?1??復制活動鏈接進入活動頁面
?2??點擊我要參加,頁面右上角將會收到活動消息通知(需注冊登錄)
?3??點擊網站右上方的推薦論文進行推薦
?4??或從今日arXiv右側下載arXiv Paper推薦插件,即可進行一鍵推薦
?5??為了更好的使用體驗,建議通過PC端訪問網站
*尚未注冊PaperWeekly社區的用戶請先申請注冊。網站目前采用審核制注冊,請如實填寫個人信息,我們將在12小時內完成審核。
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看論文
總結
以上是生活随笔為你收集整理的A flight (to Boston) to Denver - 基于转移的顺滑技术研究 | 论文访谈间 #22的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从2017年顶会论文看Attention
- 下一篇: “Paper + Code”加量豪华套餐