文本挖掘技术在CIC的应用--转载
數據挖掘(Data Mining)已經不是一個新鮮的概念,“尿布和啤酒” 這一經典案例也被很多人津津樂道: 美國一家大型超市利用數據挖掘技術來分析他們的銷售紀錄,居然發現尿布和啤酒的銷售量之間存在相當大的關聯性。經過進一步的調查,找到了產生這個現象的原 因,原來在美國,負責為孩子購買尿布的年輕父親們,很多時候會順帶著給自己買些啤酒。沃爾馬隨后采取的措施是,將尿布和啤酒并排放在一起,結果兩種產品的 銷售量都到了增長。
在CIC,我們也使用一種特殊的數據挖掘技術,也就是文本挖掘(Text Mining),來從每天數以百萬計的網絡文章中尋找譬如“尿布和啤酒”的潛在規律和趨勢。但是和一般意義上的數據挖掘不同, 文本挖掘的研究對象,即文本,是非結構化(Unstructured)的,即沒有預先設定好的欄和位,告訴我們這篇文章是在說某年某月誰誰誰做了什么事, 這些信息,都必須使用包括文本向量模型(Vector Space Model),自然語言分析(Natural Language Processing)等技術在內的信息抽取(Information Retrieval)過程得到,然后才能放進結構化的數據庫,以供進一步處理。
我們當然希望對于文本的處理結果能夠相當準確,這個準確度可以用兩個指標來衡量,1. 召回率(Recall),譬如我們想要尋找談及產品A的文章,那么召回率就是在所有談及產品A的文章中,多大比例可以被我們發現;2. 精確度(Precision),在我們所認為是談及產品A的文章,有多少是確實滿足我們期待而不是被錯誤劃分進來的。
如果說能相當準確的處理少數文本還不算難,那么每天處理幾百萬篇文章,就是對整個軟件系統的一大考驗了,算法的高效,系統的穩定還有可擴展,都起著決定性作用。
除去以上這些,另一大挑戰是來自中文。與西方文字不同,漢字字符是沒有邊界的。西方的文本挖掘技術不能直接應用在中文上,就如同不能直接應用在類似 這樣一串字符串上一樣 thisistobesegmentedfirstandthenwecandosomethingaboutit. 在漢字字串當中尋找特定信息,我們需要首先進行分詞,缺少這個過程,就會產生讓人啼笑皆非的錯誤。譬如尋找包含“可樂”的句子,結果“我可樂壞了”也被當 作結果。
中國網民的用語習慣,會讓文本挖掘的過程更為復雜,我們需要知道什么時候“粉絲”,“玉米”不是食物,而是一些特定人群;我們也需要知道“小黑”可能不是一條狗,而是ThinkPad筆記本;當然,我們也得弄清楚“KK” 這款車是指雪佛蘭的Spark還是豐田的Camry,抑或是東風雪鐵龍的富康。
同時,我們也需要超越絕大多數現有搜索引擎所采用的單純基于特定關鍵字的查找匹配方式,而在一定程度上去實現基于語義(Semantic)的搜索,即不論文中出現的是“筆記本”,“本本”,還是“laptop”,當我們在查找“筆記本”時,這篇文章都應該作為結果返回。
面對這么多困難,如果有人覺得CIC的技術人員一定過的苦不堪言,那么他可錯了。面向中文網絡的文本挖掘實在是有趣極了。首先,迎接那些挑戰,解決 各類難題本身就很刺激。同時,有機會和我們的分析團隊合作也是相當有意思的事情,我們面向各行各業,消費電子,汽車,運動產品,飲料,汽車,甚至網游等 等,通過挖掘和分析,散布在海量文本當中的蛛絲馬跡就可能被拼湊起來,而形成一個完整的故事。我們或許能夠發現不為人知的聯系,或者預測到潛在的品牌危 機。
對于一個熱愛新知的人來說,從事這項技術的研究與開發,可以接觸到各類學科的知識,計算機科學,語言學,統計學,社會學,大眾傳媒等。我們研究文字 的信息熵,計算文本矢量的相似性,用動態規劃法(Dynamic Programming)對中文進行正確的分詞,用概率理論分析詞跟詞的關聯,計算文本向量矩陣的特征向量(Eigenvector),用分布式系統來實 現大規模的計算和存儲...... 如果這些聽起來還不夠讓人興奮,那么或許我們還可以去看看文本挖掘和量子物理的共同點。
如果有人問我互聯網時代,繼門戶,搜索引擎,Web2.0之后,The next big thing是什么,我的回答會是,不論具體的應用為何,這個應用一定離不開文本挖掘,從海量的網絡文本當中,在語義層面尋找富有價值的信息。這類應用,被紐約時報稱為Web3.0,網絡的應用.正在從手冊(Catalog),向智能的向導(Guide)演變。
本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/CICTech/archive/2008/04/16/2296453.aspx
總結
以上是生活随笔為你收集整理的文本挖掘技术在CIC的应用--转载的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cover letter 转
- 下一篇: 情感分析(Sentiment Analy