数据特征分析(学习笔记)
數(shù)據(jù)特征分析包括以下幾個方面的內(nèi)容:
1、分布分析
a、定量數(shù)據(jù)分布分析:繪制頻率直方分布圖
b、定性數(shù)據(jù)分布分析:根據(jù)變量的分類類型分組,繪制餅圖和條形圖來描述分布
2、對比分析
a、絕對數(shù)對比
b、相對數(shù)對比(如結(jié)構(gòu)相對數(shù)、比例相對數(shù))
3、統(tǒng)計量分析
a、集中趨勢度量:均值、中位數(shù)、眾數(shù)
b、離中趨勢度量:極差、標(biāo)準(zhǔn)差、變異系數(shù)(標(biāo)準(zhǔn)差/均值)、四分位數(shù)間距
?
、
?
4、周期性分析:帕累托法則(即為二八法則)
5、相關(guān)性分析(連續(xù)變量之間線性相關(guān)的程度)
a、繪制散點圖、繪制散點圖矩陣
b、計算相關(guān)系數(shù)(皮爾森相關(guān)系數(shù)、斯皮爾曼秩相關(guān)系數(shù)、判定系數(shù))
?
?
可以從上面的代碼中,計算出任意兩款菜式的相關(guān)系數(shù)。可以看出,pandas的corr()函數(shù)用來計算皮爾森是非常方便的。D.corr(method='pearson')可以計算方法,默認(rèn)是皮爾森,還支持Kendall、spearman相關(guān)系數(shù)。
轉(zhuǎn)載于:https://www.cnblogs.com/CCColby/p/8507426.html
總結(jié)
以上是生活随笔為你收集整理的数据特征分析(学习笔记)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux手动分区步骤
- 下一篇: knockout的使用