kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析
---恢復內容開始---
原kaggle比賽地址:https://www.kaggle.com/c/titanic
原kernel地址:A Data Science Framework: To Achieve 99% Accuracy
Step 4: Perform Exploratory Analysis with Statistics
使用描述性與圖表分析數據,重點在于數據可視化,突出數據類別與不同feature的關聯性
簡單的groupby()獲得不同feature對于生存率的影響
箱型圖與柱狀圖繪制。
箱型圖:plt.boxplot(),清晰表示數據的集中程度、離群點、中位數的位置。
柱狀圖plt.hist(),表示每個feature的不同值/分類的Survived數量。
seaborn 的barplot展示的是某feature的平均值,是數值變量的集中趨勢
pointplot():數值變量的中心趨勢估計,并使用誤差線提供關于該估計的不確定性的一些指示。
violinplot():小提琴圖顯示數據分布及其概率密度。
因為性別因素對是否生還造成很大影響,因此我們將性別和其他feature聯合繪圖比較,看看是否有什么新發現:
然后是其他feature的比較圖:
不同船艙等級和性別對生還率的影響:
不同年齡的連續生還曲線:
直方圖比較性別、年齡、船艙等級:
微妙的看出低等倉與中等艙的男性大批死亡。頭等艙的女性幾乎全部生還。
pairplot()多變量圖將所有的feature交叉繪圖,隱含feature之間的關聯性。
heatmap()熱力圖,反應feature之間的關聯度:
總結
以上是生活随笔為你收集整理的kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最后生还者2怎么用近战武器?
- 下一篇: 长城为什么被认为是世界七大奇迹之一?