python爬空气污染实时数据_python数据分析综合项目--空气质量指数分析
項(xiàng)目背景
近年來,我國(guó)的環(huán)境問題比較嚴(yán)重,很多城市出現(xiàn)了霧霾天氣,當(dāng)然也有很多城市空氣依舊清新,為了研究具體的空氣環(huán)境城市分布,我們采用了假設(shè)檢驗(yàn)以及線性回歸的思想對(duì)AQI(空氣質(zhì)量指數(shù))進(jìn)行分析和預(yù)測(cè),其中AQI的值越大,表示空氣質(zhì)量越差,AQI值越小,表明空氣質(zhì)量越好。
提出問題
1.列出空氣質(zhì)量?jī)?yōu)秀/較差的五個(gè)城市
2.全國(guó)空氣質(zhì)量分布情況
3.臨海城市和內(nèi)陸城市的空氣質(zhì)量對(duì)比
4.影響空氣指數(shù)的因素
5.空氣質(zhì)量均值驗(yàn)證
數(shù)據(jù)字段描述
City 城市名
AQI 空氣質(zhì)量指數(shù)
Precipitation 降雨量
GDP 城市生產(chǎn)總值
Temperature 溫度
Longitude 經(jīng)度
Latitude 緯度
Altitude 海拔高度
PopulationDensity 人口密度
Coastal 是否沿海
GreenCoverageRate 綠化覆蓋率
Incineration(10,000ton) 焚燒量(10000噸)
導(dǎo)入相應(yīng)的模塊以及數(shù)據(jù)集
數(shù)據(jù)處理
在進(jìn)行數(shù)據(jù)分析之前,我們對(duì)數(shù)據(jù)集進(jìn)行觀察并對(duì)其中的缺失值、重復(fù)值、異常值進(jìn)行處理
處理缺失值
我們發(fā)現(xiàn)降雨量數(shù)據(jù)中包含了4個(gè)缺失值,為了保證數(shù)據(jù)的精確,我們查一下降雨量的數(shù)據(jù)分布
降雨量分布圖
很明顯的呈現(xiàn)右偏分布,因此采用平均數(shù)來替代缺失值并不妥,我們這里用中位數(shù)來代替
缺失值處理
異常值處理
最常用的異常值檢測(cè)方式為3倍標(biāo)準(zhǔn)差檢驗(yàn)法,我們用此方法篩選出異常數(shù)據(jù),并繪制對(duì)應(yīng)的箱線圖
異常值檢測(cè)
GDP箱線圖
GDP屬性中檢測(cè)出8條異常值,我們這里采取用極端值替換的方式,將異常值替換成最大值
df['GDP'][(df['GDP']upper)]=df['GDP'].mean()+3*df['GDP'].std()
重復(fù)值處理
重復(fù)值處理比較簡(jiǎn)單,篩選出來并刪除即可
df.drop_duplicates(inplace=True)
數(shù)據(jù)分析及可視化
數(shù)據(jù)集處理完畢之后,我們開始進(jìn)行數(shù)據(jù)分析
1. 列出空氣質(zhì)量?jī)?yōu)秀/較差的五個(gè)城市
按照AQI降序排列,選出排名前五以及后五的城市,進(jìn)行可視化,結(jié)果如下
空氣質(zhì)量好的五大城市
空氣質(zhì)量堪憂的五個(gè)城市
結(jié)論:空氣質(zhì)量較好的城市為韶關(guān)市、南平市、梅州市、基隆市、三明市,空氣質(zhì)量堪憂的城市分別為焦作市、錦州市、保定市、朝陽市、北京市
2. 全國(guó)空氣質(zhì)量分布情況
這里我們將AQI指數(shù)分為六個(gè)等級(jí),并根據(jù)等級(jí)統(tǒng)計(jì)全國(guó)空氣質(zhì)量的等級(jí)情況
全國(guó)空氣質(zhì)量等級(jí)劃分圖
我們?cè)儆蒙Ⅻc(diǎn)圖繪制下全國(guó)的空氣質(zhì)量分布
地理分布圖
結(jié)論:我國(guó)城市的空氣質(zhì)量集中在一級(jí)、二級(jí)和三級(jí),高污染城市比例較低;從地理位置來看,西部城市空氣質(zhì)量?jī)?yōu)于東部城市,南部城市優(yōu)于北部城市。
3. 臨海城市和內(nèi)陸城市的空氣質(zhì)量對(duì)比
根據(jù)上面的結(jié)論我們發(fā)現(xiàn),仿佛臨海城市的空氣質(zhì)量普遍高于內(nèi)陸地區(qū),那么這個(gè)結(jié)論是否是真的呢?還需要進(jìn)一步驗(yàn)證。
首先,我們來統(tǒng)計(jì)下不同地理環(huán)境的城市數(shù)量
內(nèi)陸、沿海城市數(shù)量
第二步,繪制臨海和內(nèi)陸城市的AQI分布圖
AQI分布
我們發(fā)現(xiàn)內(nèi)陸城市AQI集中分布在50-100區(qū)間內(nèi),而沿海城市AQI集中分布在0-50區(qū)間,在此樣本中,沿海的AQI分布低于內(nèi)陸城市,但是這畢竟是樣本,無法推測(cè)出總體分布情況,還需進(jìn)一步探測(cè)。
第三步,統(tǒng)計(jì)AQI均值并繪制分布密度圖
AQI均值
第四步,差異檢驗(yàn),查看內(nèi)陸沿海AQI均值分布是否顯著
我們先假設(shè)內(nèi)陸城市和沿海城市的平均值相同
t檢驗(yàn)
結(jié)果得出支持的概率為0.006,遠(yuǎn)低于0.05,因此我們否定原假設(shè),選擇備擇假設(shè),即內(nèi)陸城市和沿海城市的平均值不相同
結(jié)論:經(jīng)過分析,我們發(fā)現(xiàn)有超過99%的概率可以證明臨海城市空氣質(zhì)量?jī)?yōu)于內(nèi)陸城市的空氣質(zhì)量。
4. 影響空氣指數(shù)的因素
為了探究影響空氣質(zhì)量的具體因素,我們需要計(jì)算出兩個(gè)變量之間的相關(guān)系數(shù),以此進(jìn)行判斷,這里采用熱力圖進(jìn)行可視化操作。
sns.heatmap(df.corr(),annot=True,fmt='.2f')
相關(guān)系數(shù)熱力圖
結(jié)論:從顯示結(jié)果看出,AQI主要受降雨量和緯度的影響,其中降雨量越多,空氣質(zhì)量越好(0.4);緯度越低,空氣質(zhì)量越好(-0.55)
當(dāng)然,從整個(gè)圖片來看,也能發(fā)現(xiàn)很多變量之間的關(guān)系,比如GDP與焚燒量的正相關(guān)系數(shù)達(dá)到了0.9,溫度與緯度的負(fù)相關(guān)系數(shù)達(dá)到了-0.81等。
5. 空氣質(zhì)量均值驗(yàn)證
傳聞空氣質(zhì)量均值在71左右,這個(gè)消息是否是準(zhǔn)確的呢?我們進(jìn)行一次驗(yàn)證。
首先計(jì)算樣本的均值
df['AQI'].mean()
結(jié)果顯示為75.334
那么總體的均值是否為71呢?這里先假設(shè)總體的均值為71,進(jìn)行t檢驗(yàn)
驗(yàn)證
結(jié)論:可以看出,偏離均值1.81倍的標(biāo)準(zhǔn)差,而且p值大于0.05,我們接受原假設(shè)(即空氣質(zhì)量均值在71左右)另外,我們還可以計(jì)算出在置信度為95%時(shí),空氣質(zhì)量均值的置信區(qū)間為70-80。
總結(jié)
空氣質(zhì)量最好的城市是韶關(guān)、南平和梅州,最差的是北京。
分布總體顯示,西部城市空氣質(zhì)量?jī)?yōu)于東部城市,南部城市優(yōu)于北部城市。
臨海城市空氣質(zhì)量總體好于內(nèi)陸城市。
降雨量和緯度對(duì)空氣質(zhì)量影響較大。
我國(guó)平均空氣質(zhì)量指數(shù)在70-80之間,概率達(dá)到95%
總結(jié)
以上是生活随笔為你收集整理的python爬空气污染实时数据_python数据分析综合项目--空气质量指数分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Pippo已经不能只用超级来形容了
- 下一篇: 否打开人工智能的“黑箱”?