當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Titanic（泰坦尼克号生存预测）---（1）

發布時間：2025/3/15 编程问答 12 豆豆

生活随笔收集整理的這篇文章主要介紹了 Titanic（泰坦尼克号生存预测）---（1）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我是初學者哈，有問題歡迎大家指出。一起加油，共同進步！
關于數據以及代碼：

# data analysis and wrangling import pandas as pd import numpy as np import random as rnd# visualization import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline# machine learning from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC, LinearSVC from sklearn.ensemble import RandomForestClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.naive_bayes import GaussianNB from sklearn.linear_model import Perceptron from sklearn.linear_model import SGDClassifier from sklearn.tree import DecisionTreeClassifier

讀取數據

train_df = pd.read_csv('data/泰坦尼克號生存率/train.csv') test_df = pd.read_csv('data/泰坦尼克號生存率/test.csv') combine = [train_df, test_df] #特征屬性值以及前五個數據樣本 print(train_df.columns.values) train_df.head() # 查看數據集的缺失情況 train_df.info() print('_'*50) test_df.info() out： <class 'pandas.core.frame.DataFrame'> RangeIndex: 891 entries, 0 to 890 Data columns (total 12 columns): PassengerId 891 non-null int64 Survived 891 non-null int64 Pclass 891 non-null int64 Name 891 non-null object Sex 891 non-null object Age 714 non-null float64 SibSp 891 non-null int64 Parch 891 non-null int64 Ticket 891 non-null object Fare 891 non-null float64 Cabin 204 non-null object Embarked 889 non-null object dtypes: float64(2), int64(5), object(5) memory usage: 66.2+ KB __________________________________________________ <class 'pandas.core.frame.DataFrame'> RangeIndex: 418 entries, 0 to 417 Data columns (total 11 columns): PassengerId 418 non-null int64 Pclass 418 non-null int64 Name 418 non-null object Sex 418 non-null object Age 332 non-null float64 SibSp 418 non-null int64 Parch 418 non-null int64 Ticket 418 non-null object Fare 417 non-null float64 Cabin 91 non-null object Embarked 418 non-null object dtypes: float64(2), int64(4), object(5)

得到結論：
數據缺失情況：

對于訓練數據：cabin信息缺失很多，age部分缺失，再是embarked少量缺失
對于測試數據：cabin>age

數據類型：
7+5
6+5

對缺失數據進行處理

缺失數據處理方法
先看缺失值最少的embarked:

# 因為只缺少兩個值，因而大部分方法都可以使用，從簡，直接插入出現頻率最高的值 freq_port = train_df.Embarked.dropna().mode()[0]# 得到出現頻率最高的特征值 freq_port for dataset in combine:dataset['Embarked'] = dataset['Embarked'].fillna(freq_port)#當該特征值為空值時，插入出現頻率最高的值train_df.info() train_df[['Embarked', 'Survived']].groupby(['Embarked'], as_index=False).mean().sort_values(by='Survived', ascending=False) #根據Embarked進行分類，并計算出其與是否生存的關系，或者說是每個港口的存活率。根據輸出值，可以得出Embarked已經完全填補，而且c港口的生存概率最高 out： <class 'pandas.core.frame.DataFrame'> RangeIndex: 891 entries, 0 to 890 Data columns (total 12 columns): PassengerId 891 non-null int64 Survived 891 non-null int64 Pclass 891 non-null int64 Name 891 non-null object Sex 891 non-null object Age 714 non-null float64 SibSp 891 non-null int64 Parch 891 non-null int64 Ticket 891 non-null object Fare 891 non-null float64 Cabin 204 non-null object Embarked 891 non-null object dtypes: float64(2), int64(5), object(5) memory usage: 66.2+ KBEmbarked Survived 0 C 0.553571 1 Q 0.389610 2 S 0.339009

年齡采用均值插補法

age_mean=dataset['Age'].mean() age_meanfor dataset in combine:dataset['Age'] = dataset['Age'].fillna(age_mean)train_df.info() train_df[['Age', 'Survived']].groupby(['Age'], as_index=False).mean().sort_values(by='Survived', ascending=False)

cabin可以直接丟棄

缺失數據過大
該特征值與存活率相關不大

train_df = train_df.drop(['Name', 'PassengerId'], axis=1) test_df = test_df.drop(['Name'], axis=1)combine = [train_df, test_df] train_df.shape, test_df.shapetest_df = test_df.drop(['Ticket','Cabin'], axis=1) train_df = train_df.drop(['Ticket','Cabin'], axis=1) combine = [train_df, test_df] train_df.shape, test_df.shape #train_df.head()

將數據規格化

對于

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的Titanic（泰坦尼克号生存预测）---（1）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Titanic（泰坦尼克号生存预测）---（1）

對缺失數據進行處理

將數據規格化

總結