告警系统的一些痛点思考
告警風暴
隨著業(yè)務系統(tǒng)接入越拉越多,告警配置也會越來越多;如果出現(xiàn)故障,故障影響模塊過多、相關人員關注的模塊越多,必然會造成告警風暴。
怎么解決呢?
合理的配置告警告警降噪,防抖動,比如連續(xù)出現(xiàn)多少次告警才認為有問題關注各自的告警模塊、核心的告警指標推送到值班大群周知告警聚合,可能會導致告警稍微延遲一下根因定位,直接給出根因壓測期間告警處理
壓測很容易搞出事情來,我們需要實時監(jiān)控我們的系統(tǒng)運行情況,一般我們會抽取相關的大盤,然后在壓測期間統(tǒng)一關注,我們可以考慮關閉電話告警,來防止騷擾。
保留普通的社交軟件通知,比如我們辦公軟件、微信、釘釘?shù)取?/p>
告警治理
為什么要進行告警治理?
接入的業(yè)務系統(tǒng)增多、告警數(shù)量增多告警推送出去是否有人看到了,是否有人在處理,原因是什么?告警閉環(huán),只有閉環(huán)才能有始有終
告警治理的是什么?
無效的告警、告警風暴告警回執(zhí)率過低,告警率過高
如何進行告警治理?
統(tǒng)計分析,按部門、小組統(tǒng)計告警數(shù)量、回執(zhí)數(shù)量,提供日報、周報、實時報表說明告警治理的好處,比如減少無效告警,我們可以防騷擾,防恐慌等等拉值班群,拉上層,借勢推告警治理
?
總結
以上是生活随笔為你收集整理的告警系统的一些痛点思考的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: Vue视频教程系列第三十七节-子路由地配
- 下一篇: 怎么能学好Java开发,学好Java一般
