大学计算机基础python第二次作业_python第二次作业-titanic数据集练习
一、讀入titanic.xlsx文件,按照教材示例步驟,完成數據清洗。
titanic數據集包含11個特征,分別是:
Survived:0代表死亡,1代表存活
Pclass:乘客所持票類,有三種值(1,2,3)
Name:乘客姓名
Sex:乘客性別
Age:乘客年齡(有缺失)
SibSp:乘客兄弟姐妹/配偶的個數(整數值)
Parch:乘客父母/孩子的個數(整數值)
Ticket:票號(字符串)
Fare:乘客所持票的價格(浮點數,0-500不等)
Cabin:乘客所在船艙(有缺失)
Embark:乘客登船港口:S、C、Q(有缺失)
importpandas as pd
titanic= pd.read_excel('G:\ppp/titanic.xlsx')
titanic.head()
二、對titanic數據集完成以下統計操作
1.統計乘客死亡和存活人數
survived = titanic['survived'].value_counts()print("乘客存活人數:{}\n乘客死亡人數:{}".format(survived[1],survived[0])
2.統計乘客中男女性別人數
sex = titanic['sex'].value_counts()print("乘客中男性性別人數:{}\n乘客中女性性別人數:{}".format(sex[0],sex[1]))
3.統計男女獲救的人數
titanic['pclass'].value_counts()
4.統計乘客所在的船艙等級的人數
pclass = titanic['pclass'].value_counts()print("乘客所在的船艙等級是1的人數為:{}\n乘客所在的船艙等級是2的人數為:{}\n乘客所在的船艙等級是3的人數為:{}".format(pclass[1],pclass[2],pclass[3]))
5.使用corr()函數,判斷兩個屬性是否具有相關性,分析艙位的高低和存活率的關系
print("艙位的高低和存活率的相關性為",titanic[u'survived'].corr(titanic[u'pclass']))
6.畫出乘客票價與艙位等級的箱體圖Boxplot,從圖中能夠得到哪些結論?
titanic.boxplot(['fare'],['pclass'])
總結
以上是生活随笔為你收集整理的大学计算机基础python第二次作业_python第二次作业-titanic数据集练习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux 中的负载高低和 CPU 开销
- 下一篇: opencv利用矩形框选中某一区域_【从