當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Kaggle 入门练习 -- Titanic

發布時間：2025/3/12 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 Kaggle 入门练习 -- Titanic 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Kaggle 入門練習 – Titanic

Kaggle 大數據比賽的入門練習，泰坦尼克遇難者預測

import pandas as pd# 導入數據集 train = pd.read_csv('Titanic_dataset/train.csv') test = pd.read_csv('Titanic_dataset/test.csv')# 查看數據集的信息 # print(train.info()) # print(test.info())# 選擇特征 selected_features = ['Pclass', 'Sex', 'Age', 'Embarked', 'SibSp', 'Parch', 'Fare'] X_train = train[selected_features] X_test = test[selected_features] y_train = train['Survived']# 查看具體特征的每個值的個數 # print(X_train['Embarked'].value_counts()) # print(X_test['Embarked'].value_counts())# 填充缺失值，Embarked 用出現頻率最高的特征值 X_train['Embarked'].fillna('S', inplace=True) X_test['Embarked'].fillna('S', inplace=True)# 填充缺失值，Age 和 Fare 用特征值的平均值 X_train['Age'].fillna(X_train['Age'].mean(), inplace=True) X_test['Age'].fillna(X_test['Age'].mean(), inplace=True) X_test['Fare'].fillna(X_test['Fare'].mean(), inplace=True)# 查看數據集的信息 # X_train.info()# 特征向量化 from sklearn.feature_extraction import DictVectorizer dict_vec = DictVectorizer(sparse=False) X_train = dict_vec.fit_transform(X_train.to_dict(orient='record')) # 查看特征向量的特征名稱 # dict_vec.feature_names_ X_test = dict_vec.transform(X_test.to_dict(orient='record'))# 創建隨機森林模型分類器 from sklearn.ensemble import RandomForestClassifier rfc = RandomForestClassifier()# 交叉驗證的精度 from sklearn.model_selection import cross_val_score print(cross_val_score(rfc, X_train, y_train, cv=5))# 分類器擬合數據集 rfc.fit(X_train, y_train) rfc_y_predict = rfc.predict(X_test)# 保存對測試集的預測結果，以便提交 rfc_submission = pd.DataFrame({'PassengerId': test['PassengerId'], 'Survived': rfc_y_predict}) rfc_submission.to_csv('titanic_submission.csv', index=False)

總結

以上是生活随笔為你收集整理的Kaggle 入门练习 -- Titanic的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：全国计算机英语四六级准考证打印准考证号,
下一篇： yml和properties的加载顺序

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Kaggle 入门练习 -- Titanic

Kaggle 入門練習 – Titanic

總結