當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Sklearn-train_test_split随机划分训练集和测试集

發布時間：2025/3/15 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 Sklearn-train_test_split随机划分训练集和测试集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

sklearn.model_selection.train_test_split隨機劃分訓練集和測試集

官網文檔：http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split

train_test_split是交叉驗證中常用的函數，功能是從樣本中隨機的按比例選取train data和testdata，形式為：

X_train,X_test, y_train, y_test =

cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

train_data：所要劃分的樣本特征集

train_target：所要劃分的樣本結果

test_size：樣本占比，如果是整數的話就是樣本的數量

random_state：是隨機數的種子。

隨機數種子：其實就是該組隨機數的編號，在需要重復試驗的時候，保證得到一組一樣的隨機數。比如你每次都填1，其他參數一樣的情況下你得到的隨機數組是一樣的。但填0或不填，每次都會不一樣。

隨機數的產生取決于種子，隨機數和種子之間的關系遵從以下兩個規則：

種子不同，產生不同的隨機數；種子相同，即使實例不同也產生相同的隨機數。

[python]?view plain?copy

fromsklearn.cross_validation?import?train_test_split??

train=?loan_data.iloc[0:?55596,?:]??

test=?loan_data.iloc[55596:,?:]??

#?避免過擬合，采用交叉驗證，驗證集占訓練集20%，固定隨機種子（random_state)??

train_X,test_X,?train_y,?test_y?=?train_test_split(train,??

???????????????????????????????????????????????????target,??

???????????????????????????????????????????????????test_size?=?0.2,??

???????????????????????????????????????????????????random_state?=?0)??

train_y=?train_y['label']??

test_y=?test_y['label']??

以上是生活随笔為你收集整理的Sklearn-train_test_split随机划分训练集和测试集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。