深度学习新算法,完成字里行间的情绪识别
深度學習新算法,完成字里行間的情緒識別
發表于2013-10-12 11:41|?40891次閱讀| 來源Wired|?68?條評論| 作者Daniela Hernandez
深度學習人工智能機器學習NaSent allowtransparency="true" frameborder="0" scrolling="no" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2013-10-12%2F2817157-nasent-deep-learning&type=3&count=&appkey=&title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%98%AF%E8%BF%91%E5%87%A0%E5%B9%B4%E4%B9%9F%E8%A2%AB%E5%BD%92%E5%85%A5%E4%BA%86%E8%BF%87%E5%88%86%E5%90%B9%E5%98%98%E7%9A%84%E6%8A%80%E6%9C%AF%E4%B9%8B%E4%B8%80%EF%BC%8C%E7%A9%B6%E5%85%B6%E5%8E%9F%E5%9B%A0%E5%9C%A8%E4%BA%8E%E8%BF%98%E6%B2%A1%E6%9C%89%E6%88%90%E7%86%9F%E7%9A%84%E7%AE%97%E6%B3%95%E5%92%8C%E5%BA%94%E7%94%A8%E3%80%82%E7%84%B6%E8%80%8C%E5%AD%A6%E6%9C%AF%E7%95%8C%E4%B8%80%E7%9B%B4%E6%B2%A1%E6%9C%89%E5%81%9C%E6%AD%A2%E8%BF%99%E6%96%B9%E9%9D%A2%E7%9A%84%E7%A0%94%E7%A9%B6%EF%BC%8C%E8%BF%91%E6%97%A5%EF%BC%8C%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E7%A0%94%E7%A9%B6%E5%BC%80%E5%8F%91%E7%9A%84%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%96%B0%E7%AE%97%E6%B3%95NaSent%EF%BC%8C%E6%88%96%E4%B8%BA%E8%BF%99%E4%B8%AA%E9%A2%86%E5%9F%9F%E5%B8%A6%E6%9D%A5%E4%B8%80%E7%BA%BF%E6%9B%99%E5%85%89%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1461319069746" width="22" height="16">摘要:深度學習是近幾年也被歸入了過分吹噓的技術之一,究其原因在于還沒有成熟的算法和應用。然而學術界一直沒有停止這方面的研究,近日,斯坦福大學研究開發的深度學習新算法NaSent,或為這個領域帶來一線曙光。 深度學習領域是計算機科學一個新興領域,通俗說來就是構建像人腦一樣處理數據的計算機程序。深度學習首先發起于學術界,目前各大互聯網巨頭也紛紛投入研究,如Google的貓臉識別以及Facebook的深度學習團隊。
每天,數百萬人在使用Twitter、Facebook和其它社交網絡來就各類熱點話題互相交流。大量的個人信息被匯集到這里,對于Google、Facebook、Amazon和Twitter等大型互聯網公司來說,如果擁有較為實用的深度學習技術,這些數據就可以轉化為財富。但是說起來容易做起來難,對這些數據的處理能力很大程度上取決于他們的計算機算法是否成熟。
近日,斯擔福大學的研究生Richard Socher和Andrew Ng(Google深度學習項目工程師之一),以及一位語言學及人工智能領域的專家Chris Manning,共同研究開發了一個深度學習的新算法,這個算法被稱為Neural Analysis of Sentiment,縮寫為NaSent。NaSent算法從人腦中得到靈感,旨在改善當前書面語言的分析方法。
Socher介紹說NaSent的目的是開發一種可在無人監督的情況下運行的算法。“過去感知分析主要聚焦于模型,忽略了詞序,而且依賴人工干預,并且只適用于簡單的例子,永遠不會達到人類的理解能力。因為詞義會隨語境變化,就算是語言專家也不能準確定義語言中感情的微妙之處。我們的深度學習模型就是為了解決這些問題”。
目前,應用最廣的情緒分析是“詞袋(bag of wodrds)”模型,并沒有將詞序列入考慮范圍。詞袋中的詞匯被標記為正面或負面的,通過計數來評估整個句子或段落的含義是正面還是負面。
AlchemyAPI(一家將深度學習用于情緒分析的公司)CEO說將詞匯單獨分析的方法并不準確,必須將其放入到越來越大的結構中。
Socher和他的團隊從影評網站Rotten Tomatoes抽取了12000個句子,并將其粗略分割為214000個詞組,每個詞組被標記為負面、中立或正面(數字表示),計算機科學家稱這些數字化的表述為“特征表示”,類似于人腦理解概念和定義的方式。
如何分析和組織這些被標記的數據才是NaSent算法的核心。以下通過對兩個句子的分析來理解這個算法:
- Unlike the surreal Leon, this movie is weird but likeable.
- Unlike the surreal but likeable Leon, this movie is weird.
這兩個句子中使用的詞匯完全相同,“詞袋”模型分析顯然不會得到正確的結果。NaSent算法首先會為每個句子構造文法樹,如下圖所示:
在分析句子時,紅色的節點代表這個詞匯或短語帶有負面情緒,例如“weird”雖然是一個負面詞匯,但短語“is weird but likeable”被正確理解為正面情緒。
如上圖所示“surreal but likeable Leon”是一個正面詞組,但“this movie is weird”是負面的,整個句子得到的分析結果也是負面的。
相比之前模型80%的準確率,NaSent的準確率達到了85%。這個系統還沒有授權給外部組織,但是據Socher說已經有幾個初創公司聯系他們表示對NaSent算法很感興趣。
但遇到沒有被統計的詞匯或短語,這個系統就會失效。Socher和他的團隊已經開始通過Twitter和網上的電影數據庫,擴充系統的詞匯庫。他們還允許外部人員對這個詞匯庫進行擴充。短短幾周內,就收到了14000份詞匯庫的提交。
原文鏈接:
These Guys Are Teaching Computers How to Think Like People
Stanford Algorithm Analyzes Sentence Sentiment,Avances Machine Learning(編譯/周小璐 審校/仲浩)
總結
以上是生活随笔為你收集整理的深度学习新算法,完成字里行间的情绪识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 模式识别新研究:微软OCR两层优化提升自
- 下一篇: BoW图像检索Python实战