Data Mining Machine Learning学习笔记 机器学习入门笔记 之jieba分词(中文分词)(二)
第二章
Rationlism & Empiricism
理性主義和經驗主義
Rationalism (按照人類的方式進行處理,做詞法,語法,語義分析)
Natural Language Processing
使用詞義,時態加上語法結構來分析內容涵義。
問題來了????
語法通融性???不能容納不符合語法的句子。
語法嚴格性???拒絕非法的句子。
簡單句子需要大量的分析才能解釋???納尼???
Empiricism(Big Data)
用大量的corpora代替人類語言知識。
用機器學習來識別重要的結構和關系。
問題來了????
需要依賴大量的有效corpora,而不是人的觀點。
What is a word???
Tokens = things separated by white space.(用空格隔開的,那中文呢???)
Hyphennation (英文中的連詞符號-)
(Database & data-base)中文沒有這個問題
Case
(“the bath shop & the Bath shop)中文沒有這個問題
Morphology
Retrieval & retrieve & retrieved & retrieving
Punctuation
‘honest’ & honest! & honest
當然上述問題也有最簡單的處理方案,忽略大小寫,忽略標點符號。
英文只需要按照空格即可進行分詞,中文分詞是一件很麻煩的事,下述用java jieba分詞例子:
package com.lbh.jieba;import com.huaban.analysis.jieba.JiebaSegmenter;import java.util.List;public class WordsCounter {public static void main(String[] args) {String testText = "夜色籠罩大地,有著一道道的篝火自山林間燃燒起來,宛如夜空的星辰。\n" +"\n" +" 周元,左丘青魚,綠蘿等人圍在一簇篝火旁。\n" +"\n" +" 望著眼前的周元,左丘青魚與綠蘿此時還稍微的有點不真實的感覺,特別是當她們在感受到周圍那許多天淵域的強者在面對著周元都是顯得有些敬畏的態度時,那種不真實就變得更為的強烈了。\n" +"\n" +" “周元,這些年原來你是去了混元天嗎?還加入了天淵域?”綠蘿小聲的問道。\n" +"\n" +" 周元笑著點點頭。\n" +"\n" +" “我聽見他們,似乎稱你為元老?這是你的外號嗎?”左丘青魚有些敏銳的把握住其他人對周元的稱呼,元老這個稱謂,不論在哪里顯然都不是能夠隨隨便便達到的。\n" +"\n" +" 而且,在來到古源天之前,她們也惡補了其余諸天的諸多知識,所以她們知道天淵域,同樣也知道天淵域的元老代表著什么。\n" +"\n" +" 正因為知道這代表著什么,所以左丘青魚才不敢那么去想,反而寧愿是相信這是一種特殊的外號。\n" +"\n" +" 周元笑了笑,倒并沒有隱瞞的意思:“我現在的確是天淵域的元老...而且也正是你所想的那種,并非是什么外號。”\n" +"\n" +" 于是下一刻,左丘青魚與綠蘿便是有些呆滯的望著他。\n" +"\n" +" 這種震撼比周元趕走那童鶴還要來得強烈。\n" +"\n" +" 左丘青魚艱難的看向一旁的秦蓮等人,后者展現出來的源氣威壓,比此前那騎著巨鶴的白發男子還要更強,這般人物即便是在天淵域中必然也是最頂尖的。\n" +"\n" +" “他是在開玩笑吧?”左丘青魚吶吶道。\n" +"\n" +" 秦蓮見狀,也是忍不住的一笑,旋即正色道:“周元的確是我們天淵域五大元老之一,并非是玩笑。”\n" +"\n" +" 左丘青魚嘴角都是微微抽了一下:“可是...據我所知,天淵域的元老,可都是法域強者啊?!”\n" +"\n" +" 法域境,在她們百花仙宗,也就唯有宗主一人而已!\n" +"\n" +" 那可是蒼玄天內頂尖的強者了,雖說如今的周元比當初也是厲害了許多,可顯然與法域境還有著天大的差距。\n" +"\n" +" “周元是蒼淵大尊的親傳弟子,按照大尊所立的規矩,他有資格成為天淵域的元老?!鼻厣徑忉尩?#xff0c;她也是知曉周元這天陽境的實力成為元老是何等讓人感到不可思議的事情,所以對于左丘青魚,綠蘿的反應很是理解。\n" +"\n" +" “大尊的親傳弟子...”\n" +"\n" +" 左丘青魚與綠蘿面面相覷,最終苦笑一聲,原來這家伙有這等際遇,怪不得了。\n" +"\n" +" 大尊啊,那可是圣者境,他們蒼玄天中,當蒼玄老祖隕落后,似乎就再未曾出現過圣者了。\n" +"\n" +" “別說我了,說說你們吧...你們沒跟蒼玄天的大部隊在一起嗎?為何會獨自的跑出來?”周元擺了擺手,有些疑惑的問道。\n" +"\n" +" 聽到他這話,左丘青魚與綠蘿臉頰都是變得黯淡下來。\n" +"\n" +" “唉,別提了,蒼玄天的大部隊在進入古源天沒多久,便是出現了巨大的變故?!盶n" +"\n" +" 綠蘿咬了咬牙,有些氣憤的道:“都是圣宮那些混蛋!”\n" +"\n" +" “怎么回事?”周元眼神微凝,圣宮二字落在耳中,也是引得他眼眸深處有著寒氣涌現,當年的那些恩怨,可并不會隨著時間的流逝就消失,反而是變得更為的濃烈了。\n" +"\n" +" 畢竟他會離開蒼玄天,遠走混元天從某種意義來說,也是因為圣宮的逼迫。\n" +"\n" +" 當然,更重要的是,他們還是夭夭沉睡至今的罪魁禍首!\n" +"\n" +" 左丘青魚輕嘆一口氣,緩緩道:“此事恐怕還得從你當年那里說起...當初你將蒼玄圣印破碎,圣印碎片灑落于整個蒼玄天,此后的這些年,各方勢力都是在找尋以及爭奪,為此倒是掀起過不少的戰爭?!盶n" +"\n" +" 周元聞言,同樣是暗嘆了一口氣,蒼玄圣印這等至寶的誘惑力太大了,當其化為碎片散開時,難免會引動許多的貪婪,可這在當初也是沒辦法的事情,如果他不這么做,蒼玄圣印必定會落在圣元宮主的手中,到了那個時候,蒼玄天才是會有大劫難。\n" +"\n" +" “不過好在除開圣宮的五大圣宗還比較理智,他們也是在搜集著圣印碎片,同時皆是在戒備著圣宮。”\n" +"\n" +" “畢竟圣宮那位圣元宮主,如今算是蒼玄天唯一的一位偽圣...”\n" +"\n" +" “他的傷好了?”周元皺眉,他記得當年那一場大戰,那圣元宮主應該是被重創了。\n" +"\n" +" 左丘青魚搖搖頭:“從局勢來看,應該并未徹底恢復,不然的話蒼玄天早就有大變故了...但即便如此,圣宮如今在蒼玄天的威勢依舊愈發的驚人。”\n" +"\n" +" “在這些年圣印碎片的找尋中,圣宮與五大圣宗屢屢發生沖突,也爆發了無數的戰斗,雙方皆有不小的損傷。”\n" +"\n" +" 說著,左丘青魚的神色變得有些沉重起來:“但這種情況隨著時間的推移對于五大圣宗而言則是有些不利起來,我曾聽宗主說,圣元宮主的恢復在加快?!盶n" +"\n" +" 周元緩緩的道:“五大圣宗沒有考慮聯手剿滅圣宮嗎?”\n" +"\n" +" 圣宮雖強,但如果五大圣宗齊心協力的話,未必會輸吧?\n" +"\n" +" 綠蘿道:“五大圣宗雖然在面對圣宮這上面保持著一致,但畢竟不可能真的完全齊心,想要剿滅圣宮,就得對付圣元宮主,即便那一位如今未曾恢復,可畢竟是偽圣...”\n" +"\n" +" “若是將他逼得急了,五大圣宗的法域強者,恐怕起碼會隕落一半。”\n" +"\n" +" “這個代價,太過的慘重,就算是五大圣宗也不敢輕易的發動。”\n" +"\n" +" “所以如今五大圣宗的策略,還是以搜集蒼玄圣印碎片為主,只要這些圣印碎片不會被圣元宮主全部的奪得,那么他就不可能成為真正的圣者?!盶n" +"\n" +" 周元輕輕點頭,有些可惜,其實現在是解決圣元宮主最好的時機,但五大圣宗顯然不可能承受那么巨大的代價,畢竟人人都有私心,一旦自家的法域強者隕落,那將會是毀滅性的代價,說不得到時候還會跌落圣宗之位。\n" +"\n" +" “這些就是如今蒼玄天內的局勢了,反正一團亂?!盶n" +"\n" +" “至于我們為什么會單獨出現這里...”\n" +"\n" +" 左丘青魚咬了咬銀牙,嬌媚的臉蛋上有些憤怒涌現:“那當然也是圣宮做的好事!”\n" +"\n" +" “在我們蒼玄天的大部隊進入古源天的第一時刻,那圣宮便是與我們五大圣宗的人馬起了沖突,但當時并沒有爆發戰斗,圣宮的人馬選擇了撤退?!盶n" +"\n" +" “我們以為他們暫時的選擇了息事寧人...”\n" +"\n" +" “可沒想到的是,七天之后,圣宮夜襲我們蒼玄天大本營...蒼玄天各方勢力死傷慘重,節節敗退?!盶n" +"\n" +" “圣宮實力雖強,可也沒強到能夠打敗五大圣宗合力的程度吧?”周元有些驚疑的道。\n" +"\n" +" 五大圣宗此次所派出的人馬,必然也是最為精銳的強者,怎會如此不堪一擊?\n" +"\n" +" 左丘青魚與綠蘿對視一眼,兩女的臉色都是在此時變得格外冰寒下來。\n" +"\n" +" “因為那圣宮不知從何請來了一支圣族的隊伍...”\n" +"\n" +" 篝火旁,原本還有著的一些吵雜聲也是在此時悄無聲息的消失了。\n" +"\n" +" 周元的神色,也是漸漸的陰沉。";JiebaSegmenter jiebaSegmenter = new JiebaSegmenter();List<String> strings = jiebaSegmenter.sentenceProcess(testText);System.out.println(strings);} }上述代碼能夠實現一個簡單的分詞,分詞還需要根據具體的場景來選取。
結巴分詞JiebaSegmenter 提供了一個sentenceProcess方法,進行分詞,結巴分詞支持三種模式,這個感興趣的可以去了解?!?/p>
我之前第一個看到這個模式我第一反應就是想起的《數學之美》一書中的一個例子。
“清華大學” 是一個詞還是“清華”和“大學”。
這就需要看不同應用場景了,對于搜索引擎而言,是一定將能分的詞盡量分開,可以想象下用”清華”搜不到“清華大學”相關信息的這種場景。
詞頻統計只需要自己遍歷list就可以自己進行統計,這時候python的優勢就體現出來了,沒有比Counter更方便的統計工具(也可能是無知)。
分詞之后就需要做另一件事,詞頻統計。假設一個單詞w,它的詞頻一般記為:
F(w)
而單詞的一般頻率分布函數為:
F(r)= C/r^a, where a 約等于 ,C約等于0.1;
總結
以上是生活随笔為你收集整理的Data Mining Machine Learning学习笔记 机器学习入门笔记 之jieba分词(中文分词)(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php mysql完全自学手册 smar
- 下一篇: 华师大版数学分析下知识点总结