CASCADE: Contextual Sarcasm Detection in Online Discussion Forums(2018)论文笔记
本文提出了一種新的綜合性的模型結構:CASCADE(ContextuAl SarCAsm DEtector),它充分利用了每條文本的上下文信息,包括:
- 文本的用戶信息(用戶文體風格信息+用戶個性信息);
- 文本的主題信息。
CASCADE模型的大致流程如下:
1. 模型結構詳解
1.1 構建用戶嵌入
用戶(user)是指發布該post的用戶,用戶信息主要分為用戶的文體風格(Stylometric,該特征常用來分析文章的作者,即Authorship Analysis,)和用戶的個性化(Personality,可使用Personality分析人的行為)。
-
建模用戶文體風格流程:
注意,每條post后要加一個特殊標志。 -
建模用戶個性流程:
Specifically, the CNN is pre-trained on a benchmark corpus developed by Matthews and Gilliland (1999) which contains 2, 400 essays and is labeled with the Big-Five personality traits, i.e., Openness, Conscientiousness, Extraversion, Agreeableness, and Neuroticism (OCEAN)。用這個預訓練的CNN來提取用戶個性化信息,其中詞向量使用的是預訓練的FastText訓練出來的詞向量。 -
最后將文體風格矩陣和用戶個性化矩陣,使用典型相關性矩陣(CCA)融合降維為User Embeddings。
For each user ui, the objective of CCA is to find the linear projections of both embedding vectors that have a maximum correlation. 如下:
ui?=(di?)TA1+(pi?)TA2\vec{u_i} = (\vec{d_i})^TA_1+(\vec{p_i})^TA_2 ui??=(di??)TA1?+(pi??)TA2?
CCA:它可以捕捉到不同視圖(D和P)之間的最大信息從而生成一個聯合表示(U)。
簡單相關系數描述兩組變量的相關關系的缺點:只是孤立考慮單個X與單個Y間的相關,沒有考慮X、Y變量組內部各變量間的相關。兩組間有許多簡單相關系數,使問題顯得復雜,難以從整體描述。典型相關是簡單相關、多重相關的推廣。典型相關是研究兩組變量之間相關性的一種統計分析方法。也是一種降維技術。
典型相關分析的實質就是在兩組隨機變量中選取若干個有代表性的綜合指標(變量的線性組合), 用這些指標的相關關系來表示原來的兩組變量的相關關系。
CCA詳解
1.2 構建主題嵌入
1.3 預測
2. 實驗結果
使用的數據集是SARC(Reddit)
從實驗結果可以看出:
- 用戶個性嵌入很重要;
- CCA的融合方法比簡單的concatenate有效很多;
- 從可視化的圖中,可以看出用戶嵌入很有判別力,是CASCADE效果提升的關鍵。
總結
以上是生活随笔為你收集整理的CASCADE: Contextual Sarcasm Detection in Online Discussion Forums(2018)论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PSpice 仿真混沌电路的相图的步骤
- 下一篇: 职场“女神”,绝不会有的12个习惯