指标波动多大才算是异常?
指標波動不可怕,指標波動代表的業務場景才可怕!脫離業務場景談指標波動就是耍流氓。
指標波動分類
第一類:硬指標波動。
有一些指標是剛性考核業務部門的。比如
考核銷售:業績、回款
考核商品:庫存、毛利
考核客服:接聽、投訴
這些指標是剛性考核業務結果,意味著:必須達成指定數量,否則即使差1%都是問題。因此,常把它們稱為:硬指標。
第二類:軟指標波動。
諸如注冊用戶數、用戶點擊率、轉化率這類指標。
軟指標上升下降不見得是問題,有可能是一種新的業務形態,有可能是偶然發生的變化。因此,軟指標的變化不會直接引發業務動作。人們更多關心:這種變化到底是好是壞,會不會對硬指標有潛在的影響。因此過程指標只是個參考,不能直接判定好壞,需要和一個關鍵結果指標掛鉤。
注意:硬指標和軟指標的區分,不是一成不變的。比如很多互聯網公司會考察“用戶增長”,這時候注冊用戶數就是個硬指標,逼著推廣部門完成。因此區分硬指標和軟指標,要看部門具體KPI要求。
第三類:邊緣指標波動。
諸如滿意度、知名度等指標。這些指標有共同特點:
1、本身是抽樣調查得來的,非全量統計。意味著抽樣方法、問卷方法、調查時間等非業務動作,也可能影響到結果。它不能直接反應業務問題。
2、與硬指標、過程指標關系不大,或難以直接驗證結果。比如滿意度,滿意度高是不是意味著100%購買,不見得;滿意度低,是不是意味著不買?也不見得。
3、人為操作影響大。比如換一種抽樣方式,立馬結果變化。比如硬砸一波廣告/優惠,數值立馬提高。
硬指標>軟指標>邊緣指標,按這個順序抓重點,不要面對一屏幕指標高了低了,急的直撓頭。
指標波動情形
一次性波動
偶發的、突然性的波動。一般是由于短期、突發的事件而影響的指標的波動,包括快速上升/下降。比如說主播帶貨,天氣突然變化。
這樣的波動影響時間短,往往幾天的時間便會恢復正常波動。舉個單量的例子,在大促期間都是單量的爆發期,大促即為一次“偶發事件”,此時單量的波動即為一次性波動。其具有如下的特征圖:

下降
1、指標短期快速下降通常指三天內,快速下降通常指環比10%以上的下降;短期快速下降原因通常是比較嚴重的事故或者發生了重大的事件。如果是事故能及時修復的話指 標可以快速恢復,效果是來的也快去的也快。但是要引以為戒,盡量避免同類事故放生。
2、指標長期快速下降通常指持續時間超過7天,指標環比30%以上的下降;長期快速下降的場景并不典型,短期快速下降如果發現問題就并及時解決就不會導致長期的快速下降。通常除 非收到惡意攻擊沒能快速修復或者產品被戰略性放棄,不會出現長期快速下降的情況。
3、指標長期緩慢下降通常指持續時間超過7天,指標環比30%以內的下降;長期緩慢下降的原因通常是最難追蹤,結果也最為致命的,如果不能及時發現問題,運營人員常常會溫水煮青蛙放棄問題追蹤,最后給產品埋下隱患,導致一連串的連鎖坑。
上升
1、指標短期快速上升通常是由于重大事件引起的,有時候也能覓得良機,如某個熱門事件 如果能快速地在平臺上展現、傳播并二次發酵,就能在短時間內給平臺帶來大量的流量。最典型的場景就是 微博,一旦明星有些爆炸新聞,微博的流量就會立即上幾個臺階。
2、指標長期快速上升通常是產品處于上升期或者有什么長時間的大型活動,典型場景就是愛奇藝有新的大劇和綜藝上線,流量就會迅速躥升。長期快速上升是可遇而不可求的。
3、指標長期緩慢上升通常是因為作對了某件事,使得產品體驗得到持續而穩定的改善,比 如引進了優質的內容,推薦模型有新的優化等等。一旦發現這樣的趨勢就應該挖掘出原因,知其然也知其所 以然。然后加以復制和放大,力求更上一層樓。
周期性波動
這種波動和時間節點強相關,且經常以周或者季、年為循環節點。如羽絨服秋冬季節賣的比較好,到了春天銷量就下降,夏天幾乎沒有銷量,且每年幾乎都是這樣。

持續性波動
從某一時間開始,指標一直呈現上漲/下降趨勢。如從今年4月開始,浴室香氛品類的銷售量一直呈現上漲趨勢,這就屬于持續性波動。而持續性波動背后的原因往往是更深刻的,如訂單結構的變化、環境因素的影響,從而出現了這種持續性趨勢。

異常識別
什么樣的異常才能叫異常呢?
絕對值預警
絕對值預警,即通過設定一定的閾值,當指標低于/高于閾值的時候,就認為此時指標波動為異常,并進行預警。
舉個例子,菜多多作為一個品牌,毛利是其核心的一個指標。對毛利可設置絕對值預警:當毛利為負時,就認為此時是異常的情況,需要探究其發生的原因,并解釋這種異常的波動。通過對毛利的絕對值預警,及時發現了部分用戶利用一元活動進行薅羊毛、從而導致多個客戶毛利為負的行為,并完善了規則減少了品牌的損失。
不僅可以設置低于某一個定值,也可以當指標高于某一定值的時候進行預警,比如在供應鏈中,某個大倉的分倉比高于40%,就會導致倉庫負荷過重從而影響生產。
絕對值預警往往是一次性的波動,這樣的異常判定比較簡單,只需要設定對應的閾值即可。而閾值的設定可以根據具體的業務的不同和規則而變化。
相對值預警
然而實際業務中,絕對的閾值只能提供一個“底線”。除了一些非常確定性的業務場景外,在其他情況下,過高的“底線”就會導致誤報,過低的“底線”可能會漏掉很多需要預警的情況。于是作為絕對值預警的補充,相對值預警可以根據歷史數據及波動情況,來判斷當前的波動是否為異常。
(1)同比環比
同比環比是業務場景中比較常用的一種異常檢測方式,利用當前時間周期與前一個時間周期(同比)和過去的同一個時間周期(同比)比較,超過一定的閾值即認為該點是異常的。實際中常用周/日環比、年同比來進行比較。

根據值得正負來判斷是上漲還是下降。通過與上周/昨天和去年同期的數據表現進行對比,計算波動值,再將波動值和閾值進行對比,從而得到當前時刻數值是否在正常的波動中。
如在上述的周期性波動的例子中,在11月環比波動都會較大,這時設置同比波動預警會比設置環比波動預警更為合理。于是在波動判別中,需要注意業務實際背景。

周期平滑
同比/環比僅使用1~2個時間點的數據,容易受到數據本身質量的影響:當歷史同期或上個周期的數據本身就是“異常”的時候,用“異常”的數據來判斷是否“異常”就不太合適。
一個很自然的想法就是將所參考的時間點拓展,利用多個時間點的周期數據進行平滑,得到當前時刻指標的對比值。如:

則比較值:


其中為平滑系數,當都為相同的值的時候,此時即為平均值。也可越靠近所研究時間點,賦予更高的平滑系數。所選的時間點可以根據業務需求自行定義。
利用比較值b和所研究的值(1)對比,超過一定的閾值即可認為是“異常”,其波動需要關注。
假設檢驗(3σ原則)
前面提到比較值需要和所研究的值進行對比,通過閾值來判斷波動是否異常。閾值的定義方法和預警方法類似,分為絕對值閾值和自適應(相對值)閾值。
- 絕對值閾值:根據歷史正常情況下的數據波動情況,計算比較值和所研究的值之間的差異情況,從而定義一個上/下限值,即為閾值。
- 自適應閾值:根據數據波動情況而變化的閾值,其理論基礎為假設檢驗和大數定律,來判斷是否為異常。
不妨假設當前時間點的指標數據為b,歷史用于對比的指標數據為:

其中:

分別表示對比數據的平均水平和波動情況。則根據大數定律和假設檢驗,當

即可認為當前時間點的指標數據為異常波動。其中z為置信水平所對應的值,如當z=1.96時,置信水平為95%,即可認為在100次的波動下,有95次是在正常范圍內波動的(置信水平及其對應的值可參考標準正態分布表)。當z=2.58,置信水平為99%,即為著名的“3σ原則”。
其他方法
除了以上所介紹的一些常用的、便捷的方法外,也可以通過時間序列、算法模型等來判斷異常值。異常值判別是比較常見的研究場景,但由于實操的復雜性,這里僅做一個介紹。
時間序列
業務上的數據往往具有時間屬性,如單量隨時間的變化、GMV隨時間的變化等。那么在時間序列中,通過異常檢測的方法,也可以對當前波動是否異常做出判斷。常用的方法有:
- 平均法:移動平均、加權移動平均、指數加權移動平均、累加移動平均等。和上述的“周期平均”的方法類似,可自定義窗口大小和加權系數。
- ARIMA模型:自回歸移動平均模型(ARIMA)是時間序列中一個基礎模型,利用過去的幾個數據點來生成下一個數據點的預測,并在過程中加入一些隨機變量。使用該模型需要確定ARIMA所需的參數,即需要對數據點進行擬合。利用擬合后的方程確定下一個時間點的數據的區間,從而判斷當前波動是否為異常。
- 此外還有ESD、S-ESD、S-H-ESD、STL分解等算法,來檢測異常點。
算法模型
- 基于分類方法:根據歷史已有的數據,將其分為正常、異常的兩類,之后產生的新的觀測值,就可以使用分類的方法去判斷新的觀測值是否為異常。如使用距離判別的K-means算法、SVM算法等。
- 神經網絡方法:可以對具有時間特性進行建模的LSTM算法、用卷積神經網絡來做時間序列分類的Time Le-Net,以及各種的監督式模型,都是能夠對異常數據進行識別的算法。
異動歸因
確定指標波動區間
定位指標波動的原因最首要的是找到指標波動區間,只有明確了時間點才能過濾掉是是 而非的線索,直擊重點。在確定區間后就要開始追蹤可能的線索。
流程Check
1、首先要確認數據的源頭是否正確
- 客戶端or服務端是否有變動(如上線、壓測等),如果有,變動時間是否能match數據變化時間點?
- ETL層是否有修改,整體流程是否有依賴?整體流程運行是否完成?
2、細分時間維度
如果時間拆分后,時間維度上,數據無誤,那么,我們走到第二步:維度拆分;如果時間拆分后,時間維度上有明顯差異,那我們走到第三步:業務確認
是否是季節性因素?上月同期or去年同期是否有同樣情況?
分解成可追蹤的指標
單一的指標往往很難直接找到線索歸因,因此在分析的過程中往往需要不斷拆解大的 指標,直到當前指標可以被歸因為止。
三個原則:
1、要解釋50%以上的波動原因(最好80%以上),否則,本次分析未結束
2、所有的維度拆分,都要落地到對應的業務上,倒過來說,所有業務拆分都可以對應到具體業務行為上
3、絕對指標拆分層和業務,算占比;相對指標,算絕對指標的變化
業務確認及歸納原因
**第一步:剔除偽波動。**對于有規律性波動的指標,是否符合規律,才是判斷波動的標準,不是看具體數值的大小。總結規律很重要。發現規律以后,只要符合規律的波動,一律是偽波動!偽波動即使波動數值再大也不用慌,都是常事。但是逆規律而動的,則是:**事出反常必有妖!**無論波動大小,都是重大變化,都得小心觀察。
**第二步:量化主動行為。**有很多波動是業務主動引發的。比如做促銷,拉一波銷量比如搞培訓,加強工作能力比如做清倉,把庫存盡快甩出去這些指標的變化,本身是由業務引起的。對于業務主動引發的指標波動,是否達成了期望目標才是最關鍵的判斷標準,而不是絕對值大小。
?面對這種情況:
- 首先要收集清楚:到底業務在干啥。
- 其次,要收集清楚,每一個業務動作的目標和結果,這樣能方便評估**“指標波動是否達成業務預期”**。這是個重要的評價標準,一定要標紅加粗記下來。主動行為且指標波動達成預期的情況下,業務是不會糾結的。達不成預期的時候,他們就會很想知道:“到底差在哪里?”這時候拿著業務期望值找差距,就很重要
對于達成業務期望的,無論波動范圍多大,都屬于可接受。既然是主動引起的增長/下跌,肯定是指標變化越大越好。對于未達成期望的,要看期望值差距,差距部分才是要分析的波動值。
**第三步:量化外部影響。**有很多波動是可收集的外部行為導致的。比如政策限制、天氣、對手等等。注意:外部因素有很多不能收集到數據,落實影響。也有很多,即使知道了影響,也沒法干啥事——總說下雨影響業績,那也不能燒香求龍王吧。因此,對外部影響,評估其波動大小,不要看一天的絕對數,而是要測算該影響預計持續時間,推算在這個時間內,總共產生的影響值,這個數值才是衡量波動的標準。
第四步:其他意外波動。 是否有既不符合規律,又沒有業務主動動作,又沒有外部因素,數據本身也沒有問題,但是就是發生波動的情況??
有!這個時候應首先定位波動發生點:
- 全局性波動,還是局部波動
- 持續性的,還是突發性的
- 波動數值,大還是小
判斷問題大小的標準:
- 全局性>局部問題
- 持續性>短期問題
- 數字越大,問題越大
鎖定問題點后,可以結合指標的屬性,思考對策
解決“問題”
就核心指標下降的情況而言,在完全歸因之后我們會去解決問題。但是解決了問題之后并不是一勞永逸了,還需要持續觀察是不是歸因正確。假如我們正確地歸因并爭取地解決了問題,指標異動通常會恢復,這樣也驗證了歸因的 正確性。反之,我們的歸因錯誤,指標異動就會持續,這時候就需要重新歸因。
●? 針對硬指標波動:只要硬指標未達標,就是重大問題。考慮采取措施,保住指標
●??針對軟指標波動:只要關聯的硬指標沒崩,就不是重大問題。不糾結一朝一夕的波動,集中精力發現深層原因。
●??針對邊緣指標波動:不用害怕!想扭過來分分鐘的事。
應對波動總結
▌ 業務部門知道自己要做什么:
1、清楚哪些是硬指標、軟指標,哪些是邊緣指標
2、清楚自己的行為能對指標影響到什么程度
3、清楚短期、中期、長期自己能干啥
4、清楚自己的短期做的事是否達成了效果
▌ 數據部門,要知道到底發生了什么:
1、哪些是業務主動行為,他們想做到多少
2、哪些是規律性的變化,范圍在什么水平
3、哪些可量化外部因素,到底能帶來多大變化
4、哪些是異常變化,存在于什么位置
總結
以上是生活随笔為你收集整理的指标波动多大才算是异常?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sonarqube使用mysql_Son
- 下一篇: 天不知道地知道你不知道我知道谜底_温州这