机器学习这四个东西,你知道吗?
生活随笔
收集整理的這篇文章主要介紹了
机器学习这四个东西,你知道吗?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
分類變量特征提取
分類數據的獨熱編碼方法,分類變量特征提取(One-of-K or One-Hot Encoding):
通過二進制數來表示每個解釋變量的特征
文字特征提取-詞庫模型
文字模型化最常用方法,可以看成是獨熱編碼的一種擴展,它為每個單詞設值一個特征值。依據是用類似單詞的文章意思也差不多。可以通過有限的編碼信息實現有效的文檔分類和檢索。
CountVectorizer 類會將文檔全部轉換成小寫,然后將文檔詞塊化(tokenize).文檔詞塊化是把句子分割成詞塊(token)或有意義的字母序列的過程。詞塊大多是單詞,但是他們也可能是一些短語,如標點符號和詞綴。
CountVectorizer類通過正則表達式用空格分割句子,然后抽取長度大于等于2的字母序列。
from sklearn.feature_extraction.text import CountVectorizer corpus = ['UNC played Duke in basketball','Duke lost the basketball game',總結
以上是生活随笔為你收集整理的机器学习这四个东西,你知道吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 猪肝是什么样的?
- 下一篇: 如何在家中制作美味的炖鸡汤?