sklearn的train_test_split
sklearn的train_test_split
?
train_test_split函數(shù)用于將矩陣隨機(jī)劃分為訓(xùn)練子集和測試子集,并返回劃分好的訓(xùn)練集測試集樣本和訓(xùn)練集測試集標(biāo)簽。
格式:
X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)
?
參數(shù)解釋:
train_data:被劃分的樣本特征集
train_target:被劃分的樣本標(biāo)簽
test_size:如果是浮點(diǎn)數(shù),在0-1之間,表示樣本占比;如果是整數(shù)的話就是樣本的數(shù)量
random_state:是隨機(jī)數(shù)的種子。
隨機(jī)數(shù)種子:其實(shí)就是該組隨機(jī)數(shù)的編號(hào),在需要重復(fù)試驗(yàn)的時(shí)候,保證得到一組一樣的隨機(jī)數(shù)。比如你每次都填1,其他參數(shù)一樣的情況下你得到的隨機(jī)數(shù)組是一樣的。但填0或不填,每次都會(huì)不一樣。
隨機(jī)數(shù)的產(chǎn)生取決于種子,隨機(jī)數(shù)和種子之間的關(guān)系遵從以下兩個(gè)規(guī)則:
種子不同,產(chǎn)生不同的隨機(jī)數(shù);種子相同,即使實(shí)例不同也產(chǎn)生相同的隨機(jī)數(shù)。
示例
?
>>> import numpy as np >>> from sklearn.model_selection import train_test_split >>> X, y = np.arange(10).reshape((5, 2)), range(5) >>> X array([[0, 1],[2, 3],[4, 5],[6, 7],[8, 9]]) >>> list(y) [0, 1, 2, 3, 4]>>>
>>> X_train, X_test, y_train, y_test = train_test_split( ... X, y, test_size=0.33, random_state=42) ... >>> X_train array([[4, 5],[0, 1],[6, 7]]) >>> y_train [2, 0, 3] >>> X_test array([[2, 3],[8, 9]]) >>> y_test [1, 4]總結(jié)
以上是生活随笔為你收集整理的sklearn的train_test_split的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: gradle java ide_使用Gr
- 下一篇: [转载] Java:获取数组中的子数组的