Kaggle 入门练习 -- Titanic
生活随笔
收集整理的這篇文章主要介紹了
Kaggle 入门练习 -- Titanic
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Kaggle 入門練習 – Titanic
Kaggle 大數據比賽的入門練習,泰坦尼克遇難者預測
import pandas as pd# 導入數據集 train = pd.read_csv('Titanic_dataset/train.csv') test = pd.read_csv('Titanic_dataset/test.csv')# 查看數據集的信息 # print(train.info()) # print(test.info())# 選擇特征 selected_features = ['Pclass', 'Sex', 'Age', 'Embarked', 'SibSp', 'Parch', 'Fare'] X_train = train[selected_features] X_test = test[selected_features] y_train = train['Survived']# 查看具體特征的每個值的個數 # print(X_train['Embarked'].value_counts()) # print(X_test['Embarked'].value_counts())# 填充缺失值,Embarked 用出現頻率最高的特征值 X_train['Embarked'].fillna('S', inplace=True) X_test['Embarked'].fillna('S', inplace=True)# 填充缺失值,Age 和 Fare 用特征值的平均值 X_train['Age'].fillna(X_train['Age'].mean(), inplace=True) X_test['Age'].fillna(X_test['Age'].mean(), inplace=True) X_test['Fare'].fillna(X_test['Fare'].mean(), inplace=True)# 查看數據集的信息 # X_train.info()# 特征向量化 from sklearn.feature_extraction import DictVectorizer dict_vec = DictVectorizer(sparse=False) X_train = dict_vec.fit_transform(X_train.to_dict(orient='record')) # 查看特征向量的特征名稱 # dict_vec.feature_names_ X_test = dict_vec.transform(X_test.to_dict(orient='record'))# 創建隨機森林模型分類器 from sklearn.ensemble import RandomForestClassifier rfc = RandomForestClassifier()# 交叉驗證的精度 from sklearn.model_selection import cross_val_score print(cross_val_score(rfc, X_train, y_train, cv=5))# 分類器擬合數據集 rfc.fit(X_train, y_train) rfc_y_predict = rfc.predict(X_test)# 保存對測試集的預測結果,以便提交 rfc_submission = pd.DataFrame({'PassengerId': test['PassengerId'], 'Survived': rfc_y_predict}) rfc_submission.to_csv('titanic_submission.csv', index=False)
總結
以上是生活随笔為你收集整理的Kaggle 入门练习 -- Titanic的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全国计算机英语四六级准考证打印准考证号,
- 下一篇: yml和properties的加载顺序