vuepc端实现数据加载_多模态注意力机制+多模态数据,完全实现端到端课堂活动检测|ICASSP 2020...
本文解讀的是 ICASSP 2020 論文《MULTIMODAL LEARNING FOR CLASSROOM ACTIVITY DETECTION》,作者來自好未來。
作者 | 李 航
編輯 | 叢 末
論文地址:https://arxiv.org/abs/1910.13799
1
研究背景
在教育領(lǐng)域,課堂活動(dòng)檢測(cè)(Class Activity Detection)一直是一個(gè)熱門話題。自1980年開始就不斷有人在這方面進(jìn)行研究,之前已有研究證明,通過分析學(xué)生和老師在課堂中的行為,可以使人更容易注意到并糾正老師和學(xué)生在上課時(shí)犯的錯(cuò)誤。通過這種方式,可以同時(shí)提升老師的教學(xué)技能和學(xué)生的學(xué)習(xí)效率。
目前大多數(shù)教學(xué)質(zhì)量檢測(cè)的方法都是基于高質(zhì)量、細(xì)粒度的課堂活動(dòng)記錄來實(shí)現(xiàn)的,這些記錄通常需要包括老師和學(xué)生的說話內(nèi)容以及對(duì)應(yīng)時(shí)間等信息。然而,除非同時(shí)讓老師和學(xué)生都各自佩戴上獨(dú)立的收聲設(shè)備,如麥克風(fēng),否則課堂中老師和學(xué)生各自單獨(dú)的活動(dòng)記錄是非常難以獲取的。而實(shí)際上,大部分現(xiàn)有教室都只有單獨(dú)的一個(gè)收聲設(shè)備,只能獲取課堂進(jìn)行中包含多人說話混合的音頻,這就使得相應(yīng)的研究很難進(jìn)行。
因此,基于上述背景,我們的研究團(tuán)隊(duì)根據(jù)實(shí)際課堂環(huán)境產(chǎn)出的多種模態(tài)的數(shù)據(jù),使用了多模態(tài)注意力機(jī)制將多種模態(tài)的數(shù)據(jù)進(jìn)行結(jié)合,提出了一種先進(jìn)的可以通過課堂混合音頻來提取課堂活動(dòng)信息的方法。
具體而言,我們使用課堂錄音及其自動(dòng)轉(zhuǎn)錄出的文本,將它們視作兩種模態(tài)的數(shù)據(jù),并將這兩種模態(tài)的數(shù)據(jù)通過多模態(tài)注意力機(jī)制進(jìn)行結(jié)合,充分發(fā)揮各自的優(yōu)勢(shì),達(dá)到準(zhǔn)確判斷課堂錄音中的每句話的相應(yīng)說話人角色的目的。并且,不同于部分研究中需要預(yù)先錄制授課老師聲紋數(shù)據(jù)用于分離老師說話部分的方法,我們?cè)O(shè)計(jì)的方法完全實(shí)現(xiàn)從教室錄音設(shè)備到最終結(jié)果的端到端課堂活動(dòng)檢測(cè)。
2
預(yù)備知識(shí)
1、問題定義
給定
為一節(jié)課堂錄音切分出的片段序列,記為
,其中表示這節(jié)課中的第 i 句對(duì)話,N 表示這節(jié)課的總對(duì)話數(shù)。令
表示對(duì)應(yīng)的標(biāo)簽序列,記為
,其中
表示每個(gè)音頻片段的說話人是學(xué)生還是老師。對(duì)于每個(gè)片段,我們提取它的音頻特征
和文本特征
。
和
分別表示兩種特征的維度。令和表示片段序列的音頻特征和文本特征,其中
。結(jié)合上文提到的課堂活動(dòng)檢測(cè)任務(wù)的內(nèi)容,我們現(xiàn)在可以將此任務(wù)定義為一個(gè)序列標(biāo)注問題:
給定一個(gè)課堂錄音片段序列及其對(duì)應(yīng)的音頻特征和文本特征,我們的目標(biāo)是找到最有可能的課堂活動(dòng)類別序列
:
其中 Y 為所有可能的標(biāo)簽序列。
2、相關(guān)工作
通過課堂音頻或者視頻對(duì)于老師和學(xué)生的課堂行為研究具有很長(zhǎng)的歷史,例如,Owens[1]等人提出了DART系統(tǒng)(Decibel Analysis for Research in Teaching),用來分析預(yù)測(cè)課堂中花費(fèi)在單獨(dú)說話(如:演講),混合說話(如:討論)或者無人說話(如:思考問題)等活動(dòng)上的時(shí)間。Cosbey[2]等人通過使用RNN網(wǎng)絡(luò)對(duì)DART系統(tǒng)的表現(xiàn)進(jìn)行了提升。Mu[3]等人提出了ACODEA框架(Automatic Classification of Online Discussions with Extracted Attributes)用來對(duì)在線討論進(jìn)行全自動(dòng)的切割和分類。
與我們的研究最相似的,是Wang[4]等人提出的LENA系統(tǒng),他們基于此系統(tǒng)對(duì)課堂中的三種活動(dòng)進(jìn)行了識(shí)別:教師講課、課堂討論以及學(xué)生小組活動(dòng)。我們與Wang等人的研究的不同之處在于:我們提出了一種全新的多模態(tài)注意力機(jī)制,用于在真實(shí)課堂環(huán)境中進(jìn)行課堂活動(dòng)檢測(cè)。而Wang等人的研究仍然需要教師全程佩戴LENA系統(tǒng),從而可以通過音量與音色的差異來區(qū)分學(xué)生和老師的說話時(shí)間段。
對(duì)于本文定義的目標(biāo)任務(wù),一種簡(jiǎn)單直觀的方法是將說話人分離與說話人角色識(shí)別作為兩個(gè)獨(dú)立的模型,采用兩階段結(jié)合的方式進(jìn)行連接。這也是在已有研究中被實(shí)踐且證實(shí)有效的方法。然而,這種兩階段方法存在著一些明顯的弊端:首先,不同階段的模型所產(chǎn)生的誤差會(huì)在整個(gè)預(yù)測(cè)流程中進(jìn)行積累,導(dǎo)致最終結(jié)果的不準(zhǔn)確;其次,兩個(gè)獨(dú)立任務(wù)分別優(yōu)化是非常缺乏效率的,單一階段的優(yōu)化并不能完全保證最終結(jié)果的提升;最后也是最重要的,由于兩個(gè)階段的分離,多模態(tài)信息之間的交互被完全忽略了。
3
技術(shù)細(xì)節(jié)
1、數(shù)據(jù)描述
圖1(a):課堂活動(dòng)檢測(cè)數(shù)據(jù)形式
在正式開始介紹我們的方法之前,首先描述一下本文實(shí)驗(yàn)所基于的數(shù)據(jù)形式。首先,我們的音頻數(shù)據(jù)均來源于教室內(nèi)單一的麥克風(fēng),收錄了整節(jié)課堂的完整錄音。我們的文本數(shù)據(jù)來源于使用自動(dòng)語音識(shí)別(ASR)系統(tǒng)對(duì)麥克風(fēng)收錄得到的課堂錄音進(jìn)行轉(zhuǎn)錄得來。圖1(a)中展示了一段學(xué)生與老師的對(duì)話數(shù)據(jù),圖中文本框的顏色區(qū)分了不同的說話人,藍(lán)色文本框表示老師說話內(nèi)容,黃色文本框表示學(xué)生說話內(nèi)容。從圖中我們可以看出,對(duì)話的內(nèi)容包含大量的信息,其中一些句子可以非常容易的分辨出說話人的角色。以第三個(gè)句子為例,該說話人說:“How is your day in school”,從句子的內(nèi)容可以很容易的判斷出該說話人應(yīng)該是老師。然而,并不是所有的句子都像這樣容易判斷,比如圖中對(duì)話的前兩句問候語句,很難分辨出說話人是老師還是學(xué)生。
圖1(b):課堂活動(dòng)檢測(cè)數(shù)據(jù)形式
為了解決這些通用對(duì)話內(nèi)容造成的說話人角色難以分辨的問題,我們想到了使用同一說話人所說的其他具有角色特點(diǎn)的語句一同幫助進(jìn)行判斷,如圖1(b)中所示。舉例來說,圖中展示的第一句對(duì)話很難分辨出說話人角色,但如果我們知道第一句話與第三句話屬于同一個(gè)人說的,那我們可以很輕易的判斷出第一句話也是老師所說。至于如何判斷出第一句話與第三句話屬于同一個(gè)說話人所說,則需要從音頻信息入手,通過兩句話的說話人音色的相似度進(jìn)行判斷。在這里,音頻信息的作用像是一座橋梁,將同一說話人的對(duì)話信息連接整合到了一起使它們易于判斷。
2、模型結(jié)構(gòu)
圖2:(a) 整體模型結(jié)構(gòu) (b) 多模態(tài)注意力層
模型整體結(jié)構(gòu)如圖2(a)中所示,主要包含3個(gè)部分:1、特征提取層,用于提取單個(gè)模態(tài)的特征;2、多模態(tài)注意力層,用于混合兩個(gè)模態(tài)的信息;3、輸出層,用于最終輸出判斷每句話的說話人角色。
1)特征提取層
本文所使用的文本數(shù)據(jù)與音頻數(shù)據(jù)均是來源于完整的課堂數(shù)據(jù),并且使用ASR的VAD(Voice Activity Detection)模塊切分得到句子級(jí)別的數(shù)據(jù)。文本特征和音頻特征來源于兩個(gè)事先預(yù)訓(xùn)練得到的編碼器。音頻特征的編碼器為使用GE2E[5]在大量不同說話人音頻數(shù)據(jù)上訓(xùn)練得到,用于將一段音頻信號(hào)編碼為一個(gè)特征向量;文本特征來源于使用word2vec在大量課堂錄音經(jīng)過ASR轉(zhuǎn)錄得到的文本上訓(xùn)練的詞向量,通過Mean-Pooling層,將一句文本編碼為一個(gè)特征向量。因此,對(duì)于課堂錄音中的每一句話i,我們通過不同的預(yù)訓(xùn)練編碼器,從音頻與文本兩個(gè)方面提取了句子在不同模態(tài)下的特征信息。
2)多模態(tài)注意力機(jī)制
在得到每句話的文本特征向量與音頻特征向量之后,將它們輸入進(jìn)一個(gè)多模態(tài)注意力層,如圖2(b)中所示。我們令
,其中Q、K和V是經(jīng)典自注意力機(jī)制(self-attention)中的Query、Key和Value;
。注意力權(quán)重矩陣
通過Q與K的點(diǎn)乘結(jié)果經(jīng)過softmax歸一化計(jì)算得到。最后,多模態(tài)混合表征 H,通過A與V的點(diǎn)乘計(jì)算得出,完整的公式如下:
將混合表征(
)與每句話的文本特征(
)拼接后(
)輸入一個(gè)BiLSTM網(wǎng)絡(luò),用于引入整堂課的上下文信息。最后將BiLSTM的輸出經(jīng)過一個(gè)全連接層之后輸出預(yù)測(cè)該句話的說話人是老師還是學(xué)生。
3)注意力正則項(xiàng)
圖3:注意力正則項(xiàng)
為了使得多模態(tài)注意力機(jī)制能夠更好的發(fā)揮作用,更加準(zhǔn)確的預(yù)測(cè)相同說話人的音色相似度,我們?cè)O(shè)計(jì)了一個(gè)注意力正則項(xiàng)來對(duì)不同說話人的音頻之間的注意力權(quán)重進(jìn)行懲罰,如圖(3)中所示。具體來說,在3.2.2的多模態(tài)注意力機(jī)制中,注意力權(quán)重矩陣表示了整堂課所有切分出的句子兩兩之間的說話人音色相似度,我們約束注意力矩陣中對(duì)應(yīng)不同說話人的音色相似度的項(xiàng)越小越好:
(1)
其中,
代表了本節(jié)課中切分出的第 i 句話與第 j 句話。
4)訓(xùn)練損失函數(shù)
本文所提出的模型的訓(xùn)練損失函數(shù)包含兩個(gè)部分,第一個(gè)部分是標(biāo)準(zhǔn)的二分類交叉熵(BCE)損失:
(2)
第二個(gè)部分則是(1)式中的注意力正則項(xiàng),將兩項(xiàng)相加就得到了最終的損失函數(shù):
(3)
其中為超參數(shù),用來控制注意力正則項(xiàng)所占的比重。
4
實(shí)驗(yàn)
表1:線上課堂與線下課堂測(cè)試集上的實(shí)驗(yàn)結(jié)果,
與
分別表示學(xué)生與老師的
指標(biāo)
本文實(shí)驗(yàn)中,我們收集了兩種類型的數(shù)據(jù)用于實(shí)驗(yàn),分別來源于線上課堂與線下課堂。線上課堂數(shù)據(jù)包含400節(jié)來源于第三方平臺(tái)的線上課堂,線下課堂數(shù)據(jù)包含50節(jié)來源于線下教室的監(jiān)控設(shè)備收錄的課堂數(shù)據(jù)。每節(jié)課的數(shù)據(jù)如3.2.1中所說,按照ASR的VAD模型剔除靜音片段,將包含人聲的部分切分為以句為單位的小片段,每個(gè)片段的標(biāo)簽為老師或?qū)W生。對(duì)于那些包含多人混合說話的片段,我們將其標(biāo)注為片段中主要說話人的角色。
我們使用線上課堂數(shù)據(jù)中的350節(jié)課作為訓(xùn)練集,包含大約350個(gè)小時(shí)的音頻與對(duì)應(yīng)的ASR轉(zhuǎn)錄文本,并使用剩下的50節(jié)線上課程與全部50節(jié)線下課程數(shù)據(jù)作為測(cè)試集。
為了證明我們的方法的有效性,我們?cè)O(shè)置了一系列的baseline模型用于對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1中所示。
表中前4個(gè)模型,我們將模型的輸入從多模態(tài)輸入改變?yōu)閱我荒B(tài)輸入,并嘗試了不同的模型結(jié)構(gòu), 用于驗(yàn)證我們的多模態(tài)結(jié)合方法的有效性。其中第1與第3個(gè)模型為分別使用了單一音頻與文本特征的BiLSTM模型;第2與第4個(gè)模型為分別使用音頻與文本特征的結(jié)合了傳統(tǒng)注意力機(jī)制的BiLSTM模型。
表中第5個(gè)模型將3.2.2中的多模態(tài)注意力機(jī)制改為了將兩個(gè)模態(tài)的特征簡(jiǎn)單拼接,用于驗(yàn)證我們?cè)O(shè)計(jì)的多模態(tài)注意力機(jī)制的有效性。
表中第6與第7個(gè)模型使用了2.2中最后一段提到的兩階段模型,并選用了不同類型的第一階段說話人分離模型,用于對(duì)比驗(yàn)證我們?cè)O(shè)計(jì)的端到端模型的有效性。第6個(gè)模型為使用了譜聚類模型[6]作為第一階段模型,對(duì)同一說話人片段進(jìn)行聚類后輸入給第二階段模型進(jìn)行角色分類;第7個(gè)模型為使用了UIS-RNN[7]作為第一階段的說話人分離模型。這兩種模型分別代表了不同時(shí)間段內(nèi)的SOTA模型。
從表中可以看出,我們?cè)O(shè)計(jì)的端到端多模態(tài)注意力模型在線上課堂與線下課堂測(cè)試集上都超過了所有baseline模型,顯示了該模型的優(yōu)越性。
參考文獻(xiàn):
[1] Melinda T Owens, Shannon B Seidel, MikeWong, Travis E Bejines, Susanne Lietz, Joseph R Perez, Shangheng Sit,ZahurSaleh Subedar, Gigi N Acker, Susan F Akana, et al.,“Classroom sound can beused to classify teaching practices in college science courses,” Proceedings ofthe National Academy of Sciences, vol. 114, no. 12, pp. 3085–3090, 2017.
[2] Robin Cosbey, Allison Wusterbarth, andBrian Hutchinson, “Deep learning for classroom activity detection from audio,”in ICASSP. IEEE, 2019, pp. 3727–3731.
[3] Jin Mu, Karsten Stegmann, ElijahMayfield, Carolyn Rose, and ′ Frank Fischer, “The acodea framework: Developingsegmentation and classification schemes for fully automatic analysis of onlinediscussions,” International Journal of Computersupported CollaborativeLearning, vol. 7, no. 2, pp. 285–305, 2012.
[4] Zuowei Wang, Xingyu Pan, Kevin FMiller, and Kai S Cortina, “Automatic classification of activities in classroomdiscourse,” Computers & Education, vol. 78, pp. 115–123, 2014.
[5] Li Wan, Quan Wang, Alan Papir, andIgnacio Lopez Moreno, “Generalized end-to-end loss for speaker verification,”in ICASSP. IEEE, 2018, pp. 4879–4883.
[6] Quan Wang, Carlton Downey, Li Wan,Philip Andrew Mansfield, and Ignacio Lopz Moreno, “Speaker diarization withlstm,” in ICASSP. IEEE, 2018, pp. 5239–5243.
[7] Aonan Zhang, Quan Wang, Zhenyao Zhu,John Paisley, and Chong Wang, “Fully supervised speaker diarization,” inICASSP. IEEE, 2019, pp. 6301–6305.
總結(jié)
以上是生活随笔為你收集整理的vuepc端实现数据加载_多模态注意力机制+多模态数据,完全实现端到端课堂活动检测|ICASSP 2020...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 罗永浩公司被曝欠薪 暴力裁员?当事人给出
- 下一篇: 特斯拉超8成收入靠卖车 2022年获史上