机器学习-特征抽取02
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                机器学习-特征抽取02
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.                        
                                特征抽取是對(duì)文本等數(shù)據(jù)進(jìn)行值化,特征值化是為了讓計(jì)算機(jī)能夠更好的去理解數(shù)據(jù)。
sklearn特征抽取api
- sklearn.feature_extraction
字典特征抽取(對(duì)字典數(shù)據(jù)進(jìn)行特征值化)
- from sklearn.feature_extraction import DictVectorizer
 
 
文本特征抽取(對(duì)文本數(shù)據(jù)進(jìn)行特征值化)
- from sklearn.feature_extraction.text import CountVectorizer
英文特征抽取
from sklearn.feature_extraction.text import CountVectorizer # 導(dǎo)入包# 特征抽取 # 實(shí)例化 CountVectorizer 對(duì)象 vector = CountVectorizer() # 調(diào)用fit_transform 輸入并轉(zhuǎn)換數(shù)據(jù) data = vector.fit_transform(["life is is is short,i like python","life is too long,i dislike python"]) # 打印結(jié)果 print(vector.get_feature_names()) print() print(data.toarray())中文特征抽取
from sklearn.feature_extraction.text import CountVectorizer # 導(dǎo)入包# 特征抽取 # 實(shí)例化 CountVectorizer 對(duì)象 vector = CountVectorizer() # 調(diào)用fit_transform 輸入并轉(zhuǎn)換數(shù)據(jù) data = vector.fit_transform(["人生苦短,我用python","人生 漫長,我不用python"]) # 打印結(jié)果 print(vector.get_feature_names()) print() print(data.toarray())
 
TF-IDF
- TF-IDF 的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其它文章中很少出現(xiàn),則認(rèn)為改詞或者短語具有很好的類別區(qū)分能力,適合用來分類。
- TF-IDF作用:用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要性。
tf : term frequency : 詞的頻率
 idf : 逆文檔頻率 : inverse document frequency log(總文檔數(shù)量/(除以)該詞出現(xiàn)的文檔數(shù)量)
 log(數(shù)值):輸入的數(shù)值越小,結(jié)果越小
 tf*idf = 重要性程度
- from sklearn.feature_extraction.text import TfidfVectorizer
總結(jié)
以上是生活随笔為你收集整理的机器学习-特征抽取02的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 机器学习-概述01
- 下一篇: 机器学习-特征处理/归一化/标准化/降维
