数据预处理—数据清洗(2)—异常值(极值)处理
生活随笔
收集整理的這篇文章主要介紹了
数据预处理—数据清洗(2)—异常值(极值)处理
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
3.1.2異常值(極值)處理
- 處于特定分布區(qū)域或范圍之外的數(shù)據(jù)通常會被定義為異常或“噪音”。產生數(shù)據(jù)“噪音”的原因很多,例如業(yè)務運營操作、數(shù)據(jù)采集問題、數(shù)據(jù)同步問題等。對異常數(shù)據(jù)進行處理前,需要先辨別出到底哪些是真正的數(shù)據(jù)異常。從數(shù)據(jù)異常的狀態(tài)看分為兩種:
- 由于業(yè)務特定運營動作產生的,正常反映業(yè)務狀態(tài),而不是數(shù)據(jù)本身的異常規(guī)律。
- 不是由于特定的業(yè)務動作引起的,而是客觀地反映了數(shù)據(jù)本身分布異常
- 大多數(shù)情況下,異常值都會在數(shù)據(jù)的預處理過程中被認為是噪音而剔除,以避免其對總體數(shù)據(jù)評估和分析挖掘的影響。但在以下幾種情況下,我們無須對異常值做拋棄處理。
- ※異常值由運營活動導致,正常反映了業(yè)務運營結果
- 公司的A商品正常情況下日銷量為1000臺左右。由于昨日舉行優(yōu)惠促銷活動導致總銷量達到10000臺,由于后端庫存?zhèn)湄洸蛔銓е陆袢珍N量又下降到100臺。在這種情況下,10000臺和100臺都正確地反映了業(yè)務運營的結果,而非數(shù)據(jù)異常案例。
- ※異常檢測模型
- 圍繞異常值展開的分析工作,如異常客戶(羊毛黨)識別,作弊流量檢測,信用卡詐騙識別等
- ※對異常值不敏感的數(shù)據(jù)模型
- 如決策樹
- ※異常值由運營活動導致,正常反映了業(yè)務運營結果
- 處理方式
- 保留
- 刪除
- 用統(tǒng)計量或預測量進行替換
3.1.3異常值(極值)處理API
dataframe.mean() #計算平局值 dataframe.std() #計算標準差-
判斷異常值方法:Z-Score
計算公式 Z = X-μ/σ 其中μ為總體平均值,X-μ為離均差,σ表示標準差。z的絕對值表示在標準差范圍內的原始分數(shù)與總體均值之間的距離。當原始分數(shù)低于平均值時,z為負,以上為正。
- 異常值處理的關鍵:如何判斷異常
- 有固定該業(yè)務規(guī)則的直接利用業(yè)務規(guī)則
- 沒有固定業(yè)務規(guī)則的,可以使用數(shù)學模型進行判斷,如正態(tài)分布的標準差范圍,分位數(shù)法等
總結
以上是生活随笔為你收集整理的数据预处理—数据清洗(2)—异常值(极值)处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 幼儿抽象逻辑思维举例_2岁多的孩子,需要
- 下一篇: CAS操作确保原子性