读完这些论文和代码,你就能在搜狐算法大赛中获得好成绩了
?
組織方:搜狐、清華大學(xué)?
獎(jiǎng)金:¥75000?
初賽提交時(shí)間:2019年4月8日?–?2019年5月10日?
2019?年?4?月?8?日,第三屆搜狐校園算法大賽正式開(kāi)賽,同期面向參賽選手開(kāi)放競(jìng)賽結(jié)果提交。本次比賽聯(lián)合了清華大學(xué)等機(jī)構(gòu)共同組織,面向全球范圍內(nèi)的全日制學(xué)生。
本次比賽的主題是提取文章主題,并判斷文章對(duì)主題的情緒。我們生活在一個(gè)信息爆炸的世界,每天能接觸到不同的新聞文章,體裁也多種多樣,包括新聞快訊、廣告軟文、深度分析、事件評(píng)論,以及重要人物采訪(fǎng)等等。每天新產(chǎn)生的信息量已經(jīng)極大地超過(guò)了讀者能夠接受的極限。所以,如果有一種機(jī)器模型,可以自動(dòng)提取出文章的主題,并且判斷出文章對(duì)這些主題內(nèi)容的情感傾向,就可以極大地提高閱讀和消化信息的效率。
參賽方式:點(diǎn)擊閱讀原文直達(dá)賽事頁(yè)面。
注:因涉及到數(shù)據(jù)下載,強(qiáng)烈建議大家登錄?PC?頁(yè)面報(bào)名參加。
大賽頁(yè)面地址:
https://biendata.com/competition/sohu2019/
具體來(lái)說(shuō),參賽選手需要根據(jù)給定的文章,提取出文章中最重要的三個(gè)主題(也就是實(shí)體)。所謂實(shí)體,意思是人、物、地區(qū)、機(jī)構(gòu)、團(tuán)體、企業(yè)、行業(yè)等事物。和一般的實(shí)體抽取競(jìng)賽任務(wù)不同的是,本次比賽還要求選手判斷文章對(duì)主題實(shí)體的情感傾向(包括積極、中立和消極三種情緒)。如下圖:
本次比賽可以分成相對(duì)獨(dú)立的兩個(gè)任務(wù):從文章中提取最重要的實(shí)體,然后判斷文章對(duì)這些實(shí)體的情緒。?
第一個(gè)任務(wù)是提取文章中重要的實(shí)體。這個(gè)任務(wù)類(lèi)似常見(jiàn)的命名實(shí)體識(shí)別(NER)任務(wù)。傳統(tǒng)上來(lái)說(shuō),NER?任務(wù)主要抽取?7?大類(lèi)實(shí)體,包括人名、機(jī)構(gòu)、地名、時(shí)間、日期、貨幣和百分比。
目前,已經(jīng)有很多關(guān)于命名實(shí)體(NER)的研究和分享出現(xiàn)。在斯坦福大學(xué)著名的課程?CS224d:?Deep?Learning?for?Natural?Language?Processing?中,有一次大作業(yè)就是用深度神經(jīng)網(wǎng)絡(luò)提取命名實(shí)體。也有很多人已經(jīng)自愿分享了這次作業(yè)的模型方法和代碼。
作業(yè)任務(wù)鏈接:?
http://cs224d.stanford.edu/assignment2/index.html?
CS224d?作業(yè)代碼分享:
《用深度神經(jīng)網(wǎng)絡(luò)處理NER命名實(shí)體識(shí)別問(wèn)題》?
http://cloud.tencent.com/developer/article/1081991?
本次大賽的發(fā)起人之一,搜狐科學(xué)家、搜狐智能媒體研發(fā)中心負(fù)責(zé)人楊田也推薦了一篇詳細(xì)的命名實(shí)體綜述論文?A?Survey?on?Recent?Advances?in?Named?Entity?Recognition?from?Deep?Learning?models。
論文鏈接:
https://aclweb.org/anthology/C18-1182
不過(guò),本次比賽的難度比傳統(tǒng)的?NER?要大。比賽的最大特點(diǎn)就是實(shí)戰(zhàn)與應(yīng)用。行百里者半九十,在學(xué)術(shù)成果的基礎(chǔ)上,精度每向應(yīng)用提高一點(diǎn),難度就數(shù)倍增加,因此比賽的挑戰(zhàn)性非常大。
比賽的實(shí)體不僅僅包括人名,地名和機(jī)構(gòu)名的識(shí)別,粒度更細(xì),種類(lèi)也更多。在比賽前期發(fā)布的樣本數(shù)據(jù)中,實(shí)體的例子包括:眾要機(jī)械?APP、衛(wèi)生監(jiān)督站、媒介、豬瘟、互聯(lián)網(wǎng)、表帶等內(nèi)容。這也是目前實(shí)體抽取技術(shù)面對(duì)的難點(diǎn)。
隨著互聯(lián)網(wǎng)的快速發(fā)展,信息越來(lái)越豐富,呈現(xiàn)出多源、異構(gòu)、海量的特點(diǎn),也對(duì)信息抽取技術(shù)提出了新的要求。很多時(shí)候,我們要抽取的并不是一般的實(shí)體,而是全新種類(lèi)的實(shí)體。目前,越來(lái)越多的人開(kāi)始研究實(shí)體擴(kuò)展技術(shù),目的是抽取開(kāi)放類(lèi)別的實(shí)體。?
一種很自然的想法是把語(yǔ)料中所有的名詞都作為實(shí)體備選,然后計(jì)算它們與訓(xùn)練集中種子實(shí)體的相似度,找出相似實(shí)體。這一思路主要由?Pantel?等人實(shí)踐,相關(guān)研究記錄在?Web-Scale?Distributional?Similarity?and?Entity?Set?Expansion?一文中。
在提取出實(shí)體后,我們還需要判斷文章對(duì)實(shí)體的情緒。情感分析也是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要方向。有大量相關(guān)研究可以參考。早期的研究根據(jù)構(gòu)建好的情感詞庫(kù)進(jìn)行判斷。
情感詞庫(kù)有很多選擇,例如著名的知網(wǎng)?HowNet?就提供了“《知網(wǎng)》情感分析用詞語(yǔ)集”公開(kāi)下載。在考慮情感詞庫(kù)時(shí),還需要往前追溯?1-2?個(gè)詞,看看有沒(méi)有“不”、“沒(méi)有”等否定詞。
這種方法需要人工構(gòu)建情感詞庫(kù),但沒(méi)有一個(gè)情感詞庫(kù)可以適用所有應(yīng)用場(chǎng)景,所以高度依賴(lài)人的經(jīng)驗(yàn)。此外,這種方法也很難完整地考慮到上下文的語(yǔ)義信息。不過(guò),如果剛剛上手情感分析,可以嘗試這種方法。以下鏈接是一篇基于情感詞典的文本情感分析代碼:?
http://www.aidnoob.com/ai/python/qinggan1/
此后,還出現(xiàn)了基于特征的情感分析方法。這種方法主要利用統(tǒng)計(jì)學(xué)領(lǐng)域的知識(shí),從語(yǔ)料中選取特征對(duì)文本進(jìn)行表示,然后用決策樹(shù)、SVM?等方法對(duì)情緒進(jìn)行分類(lèi)。這種方法仍然高度依賴(lài)經(jīng)驗(yàn)和特征的選擇。相關(guān)研究有很多,比較詳細(xì)的案例介紹來(lái)自清華大學(xué)計(jì)算機(jī)系謝麗星在孫茂松教授指導(dǎo)下的碩士論文《基于 SVM?的中文微博情感分析的研究》。
論文鏈接:
http://nlp.csai.tsinghua.edu.cn/site/images/file/2011_xlx_master_thesis.pdf
論文主要使用?SVM?的方法,分別從微博和?Twitter?預(yù)料中抽取了主題相關(guān)特征(如是否包含主題詞、句子中是否缺乏名詞性短語(yǔ)或者代詞等)和主題無(wú)關(guān)特征(是否有?url?鏈接、是否有表情、是否有情感詞和情感短語(yǔ)、形容詞和動(dòng)詞的個(gè)數(shù)等),在使用主題無(wú)關(guān)特征時(shí)獲得的最高準(zhǔn)確率為?66.467%,使用主題相關(guān)的特征對(duì)情感分類(lèi)后獲得的最高準(zhǔn)確率為?67.283%。
目前主要的情感分析方法大多基于深度學(xué)習(xí),首先對(duì)詞語(yǔ)、句子和篇章進(jìn)行向量化表示,然后學(xué)習(xí)文本的深層語(yǔ)義信息。這種方法可以自動(dòng)學(xué)習(xí)特征,不需要人工進(jìn)行特征選擇和規(guī)則制定。很多情感分析研究使用?NLP?常見(jiàn)的?RNN,加上?LSTM?和注意力機(jī)制保證語(yǔ)義的完整性。
例如,騰訊的徐漢彬和宋彥就曾經(jīng)分享了?Keras?代碼實(shí)現(xiàn)對(duì)?40?多萬(wàn)條真實(shí)的鵝漫用戶(hù)評(píng)論數(shù)據(jù)的情感分類(lèi)。他們的代碼通過(guò)?Keras?實(shí)現(xiàn),底層框架是?Google?開(kāi)源的?TensorFlow,詞向量采用騰訊人工智能實(shí)驗(yàn)室開(kāi)源的詞向量。
整個(gè)模型包含?6?層,核心層包括?Embedding?輸入層、中間層(LSTM)、輸出層(Softmax)。模型中的?Flatten?和?Dense?層用于做數(shù)據(jù)維度變換,將上一層輸出數(shù)據(jù)變換為相應(yīng)的輸出格式,最終的輸出是一個(gè)二維數(shù)組,用于表達(dá)輸入文本是正面或者負(fù)面的概率分布。
基于LSTM的情感識(shí)別在鵝漫評(píng)論分析中的實(shí)踐與應(yīng)用:
https://www.infoq.cn/article/zJI*5CGPeRKqHsHJV3OQ
很多論文和公開(kāi)代碼主要針對(duì)文檔級(jí)別的情感分析。但是在本次比賽中,需要更加細(xì)致的分析,因?yàn)橐黄恼吕锟赡軐?duì)不同的實(shí)體有不同的情緒。我們?cè)诒荣惽捌诮o的數(shù)據(jù)樣本里,已經(jīng)能看到類(lèi)似的情況。例如以下這篇文章:
{?"content":?"華為宣布:起訴美國(guó)政府。?新聞越短,信息越大。?就在上午10時(shí),華為在深圳總部舉行外媒記者會(huì),宣布一項(xiàng)重要決定:起訴美國(guó)政府。?北京時(shí)間10時(shí),在外媒記者會(huì)上,華為輪值董事長(zhǎng)郭平宣布,華為已向美國(guó)聯(lián)邦法院提起訴訟,指控美國(guó)2019年國(guó)防授權(quán)法第889條款違反美國(guó)憲法。?在郭平的表述中,美國(guó)政府一直污蔑華為是威脅,還攻擊華為的服務(wù)器,竊取郵件和源代碼,而且從來(lái)沒(méi)有提供任何證據(jù)支撐其關(guān)于華為是網(wǎng)絡(luò)安全威脅的指控。?而且,美國(guó)竭力詆毀華為、影響公眾輿論。更糟糕的是,美國(guó)政府試圖阻止華為參與其他國(guó)家的5G網(wǎng)絡(luò)建設(shè)。?而采取法律行動(dòng)是華為不得已而為之的最后選擇,也是受盡壓迫之后的奮力反抗。?為什么華為這么有底氣去起訴美國(guó)政府,除了華為過(guò)硬的技術(shù)、品牌的成績(jī)之外,這更離不開(kāi)一個(gè)人——任正非,華為的創(chuàng)始人。}
這里,人類(lèi)標(biāo)注員就判斷文章對(duì)實(shí)體“華為”的情緒為正,對(duì)實(shí)體“美國(guó)政府”的情緒為負(fù)。事實(shí)上我們讀完這段文本后很可能也確實(shí)同意這一標(biāo)注判斷。在這種情況下,我們就不能只對(duì)文檔級(jí)別的內(nèi)容做情感分析,還需要對(duì)粒度更細(xì)的內(nèi)容做分析。?
對(duì)此,我們可以參考更前沿的研究論文。2016?年,清華大學(xué)朱小燕和黃民烈在?EMNLP?上發(fā)表了一篇情感粒度更細(xì)的論文?Attention-based?LSTM?forAspect-level?Sentiment?Classification。
這篇論文提出了一種基于注意力機(jī)制(Attention?Mechanism)的神經(jīng)網(wǎng)絡(luò)模型,使用注意力機(jī)制注意到文本中對(duì)給出的?aspect?最重要的部分,從而更充分地考慮文本對(duì)應(yīng)的?aspect?信息,提高細(xì)粒度情感分類(lèi)任務(wù)的性能。?
根據(jù)這篇論文提出的改進(jìn),可以識(shí)別很多之前的模型無(wú)法識(shí)別的細(xì)粒度情感。例如,“The?appetizer?are?ok,?but?the?service?is?slow”這句話(huà)里出現(xiàn)了兩個(gè)實(shí)體(或者說(shuō)?aspect)。food?對(duì)應(yīng)的是中性,service?對(duì)應(yīng)的是負(fù)面。
最后,搜狐官方也給所有參賽者提供了比賽的?baseline?供大家參考:
https://github.com/sohucampus2019/coreEntityEmotion_baseline
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
關(guān)于PaperWeekly
PaperWeekly?是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事?AI?領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入?PaperWeekly?的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 報(bào)名參賽
總結(jié)
以上是生活随笔為你收集整理的读完这些论文和代码,你就能在搜狐算法大赛中获得好成绩了的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 赛事丨出道题就能赢万元奖金?华录杯大赛告
- 下一篇: 实战分享之专业领域词汇无监督挖掘