當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习-特征抽取02

發(fā)布時(shí)間：2024/9/15 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习-特征抽取02 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

特征抽取是對(duì)文本等數(shù)據(jù)進(jìn)行值化，特征值化是為了讓計(jì)算機(jī)能夠更好的去理解數(shù)據(jù)。

sklearn特征抽取api

sklearn.feature_extraction

字典特征抽取（對(duì)字典數(shù)據(jù)進(jìn)行特征值化）

from sklearn.feature_extraction import DictVectorizer

# 字典特征抽取 from sklearn.feature_extraction import DictVectorizerdict = DictVectorizer(sparse=False) data = dict.fit_transform([{"city":"北京","temperature":100},{"city":"上海","temperature":60},{"city":"深圳","temperature":30}]) print(dict.get_feature_names()) print(data)

文本特征抽取（對(duì)文本數(shù)據(jù)進(jìn)行特征值化）

from sklearn.feature_extraction.text import CountVectorizer

英文特征抽取

from sklearn.feature_extraction.text import CountVectorizer # 導(dǎo)入包# 特征抽取 # 實(shí)例化 CountVectorizer 對(duì)象 vector = CountVectorizer() # 調(diào)用fit_transform 輸入并轉(zhuǎn)換數(shù)據(jù) data = vector.fit_transform(["life is is is short,i like python","life is too long,i dislike python"]) # 打印結(jié)果 print(vector.get_feature_names()) print() print(data.toarray())

中文特征抽取

from sklearn.feature_extraction.text import CountVectorizer # 導(dǎo)入包# 特征抽取 # 實(shí)例化 CountVectorizer 對(duì)象 vector = CountVectorizer() # 調(diào)用fit_transform 輸入并轉(zhuǎn)換數(shù)據(jù) data = vector.fit_transform(["人生苦短，我用python","人生漫長，我不用python"]) # 打印結(jié)果 print(vector.get_feature_names()) print() print(data.toarray())

from sklearn.feature_extraction.text import CountVectorizer # 導(dǎo)入包 import jiebadef cutword():# 使用jieba.cut 進(jìn)行分詞con1 = jieba.cut("今天很殘酷，明天更殘酷，后天很美好，但絕大部分人是死在明天晚上，所以每個(gè)人不要放棄今天。")con2 = jieba.cut("我們看到的從很遠(yuǎn)星系來的光是在幾百萬年之前發(fā)出的，這樣當(dāng)我們看到宇宙時(shí)，我們是在看它的過去。")con3 = jieba.cut("如果只用一種方式了解某樣事物，你就不會(huì)真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。")# 轉(zhuǎn)換成列表content1 = list(con1)content2 = list(con2)content3 = list(con3)# 把列表轉(zhuǎn)換成字符串c1 = ' '.join(content1)c2 = ' '.join(content2)c3 = ' '.join(content3)return c1,c2,c3def hanzi():c1,c2,c3 = cutword()print(c1,c2,c3)# 實(shí)例化 CountVectorizer 對(duì)象cv = CountVectorizer()# 調(diào)用fit_transform 輸入并轉(zhuǎn)換數(shù)據(jù)data = cv.fit_transform([c1,c2,c3])# 打印結(jié)果print(cv.get_feature_names())print(data.toarray())if __name__=='__main__':hanzi()

TF-IDF

TF-IDF 的主要思想是：如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率高，并且在其它文章中很少出現(xiàn)，則認(rèn)為改詞或者短語具有很好的類別區(qū)分能力，適合用來分類。
TF-IDF作用：用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要性。

tf : term frequency : 詞的頻率
idf : 逆文檔頻率 : inverse document frequency log(總文檔數(shù)量/（除以）該詞出現(xiàn)的文檔數(shù)量)
log（數(shù)值）:輸入的數(shù)值越小，結(jié)果越小
tf*idf = 重要性程度

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer import jiebadef cutword():# 使用jieba.cut 進(jìn)行分詞con1 = jieba.cut("今天很殘酷，明天更殘酷，后天很美好，但絕大部分人是死在明天晚上，所以每個(gè)人不要放棄今天。")con2 = jieba.cut("我們看到的從很遠(yuǎn)星系來的光是在幾百萬年之前發(fā)出的，這樣當(dāng)我們看到宇宙時(shí)，我們是在看它的過去。")con3 = jieba.cut("如果只用一種方式了解某樣事物，你就不會(huì)真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。")# 轉(zhuǎn)換成列表content1 = list(con1)content2 = list(con2)content3 = list(con3)# 把列表轉(zhuǎn)換成字符串c1 = ' '.join(content1)c2 = ' '.join(content2)c3 = ' '.join(content3)return c1,c2,c3def tfidfvec():c1,c2,c3 = cutword()print(c1,c2,c3)# 實(shí)例化 TfidfVectorizer 對(duì)象tf = TfidfVectorizer()# 調(diào)用fit_transform 輸入并轉(zhuǎn)換數(shù)據(jù)data = tf.fit_transform([c1,c2,c3])# 打印結(jié)果print(tf.get_feature_names())print(data.toarray())if __name__=='__main__':tfidfvec()

總結(jié)

以上是生活随笔為你收集整理的机器学习-特征抽取02的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：机器学习-概述01
下一篇：机器学习-特征处理/归一化/标准化/降维