系统运维遇上了大救星,是什么让IT效率提高48%
在企業信息化建設的過程中我們經常會遇到以下場景:
場景一 無法整體感知使用情況
領導:帆軟的報表系統上線這么長時間了,不知道咱們是不是真正用起來了啊?平時大概有多少人能用到?訪問頻次怎么樣?花大量人力開發的那些模板有多少用起來了?
業務人員:這個......之前還沒統計過,我去查一下,也許后臺會有這些數據的......
場景二 無法前置暴露性能問題
領導:現在我們報表系統內存怎么樣?夠不夠用?CPU整體什么水平?需要換個性能更優的CPU嗎?
業務人員:額,總體上應該是夠的吧,好像偶爾會內存較高、CPU持續暴漲,之后我們記錄下這些情況呢......
領導:現在報表有沒有什么明顯問題,都是新招的年輕人開發的,質量不一定有保證。
業務人員:這個現在也很難衡量,只有說出現問題了再去回溯,確實做不到預見性的判斷......
場景三 缺乏排查宕機問題條件
生產報表使用者:信息部,報表系統宕機了,趕緊重啟,整條生產線都停了!
業務人員:好的,正在重啟,稍后我問一下帆軟的技術支持看看什么原因......
帆軟技術支持:您好,請問宕機之后有導出dump文件嗎?還是直接重啟了啊?
業務人員:沒時間,都是生產一線,不可用時間越短越好,不能等導完dump再重啟。
帆軟技術支持:是這樣,排查下來應該是內存溢出的問題,但是沒有dump文件無法分析具體是哪張報表導致的,很抱歉。
(于是宕機的問題很難等得到有效解決,陷入一旦宕機、立即重啟、無法分析的死循環......)
場景四 無法快速獲得系統基本數據
業務人員:你好,想問一下,這個XX插件為啥在我們的服務器上用不起來啊,我看在我本地是可以的。
帆軟技術支持:您好,請問您的jdk版本是多少?現在的jar版本是多少啊?
業務人員:稍等哈,我去查查......
?
?
以上問題在很多企業中都會遇到,給企業運維人員造成一定的困擾。能不能有一個完整的運維報告,一下子解決上述場景的所有問題呢?
在帆軟面前,答案是肯定的。
眾所周知,系統的穩定和高效是業務成功使用的基礎,要達到這樣的效果離不開專業的運維團隊,但往往運維有著較高的技術門檻和人力要求,并且傳統的人工運維有著周期長、無法24小時工作的局限。
但無需擔心,這些困難都可以通過帆軟云端運維解決——上傳云端運維數據,經云端計算就可以獲得完整、全面的系統健康檢查分析報告!
云端是指帆軟為客戶提供的云中心分析計算引擎,云端運維相比于本地運維具有大計算、零成本、低門檻、高成長等等優勢,帆軟希望通過云端運維和本地運維兩種方式豐富運維功能,發揮各自優勢,為系統的穩定可用保駕護航,目前已有327個客戶加入了云端運維的大家庭。
?
看得見的新功能開發 ,我們在努力做
1、訪問次數&用戶數
想感知有多少用戶訪問了系統、頻次如何?
?
?
2、訪問模板數
不清楚開了那么多模板當中有多少是能被用到的?
?
3、內存走勢
想確認是否有內存溢出的危險時刻?
?
4、CPU走勢
想了解系統壓力最大時的穩定運行風險?
?
5、運維指標
和技術人員定位、確認問題時,連系統的基本信息都無法快速提供?
?
?
6、業務指標
想對比一些新模板上線后,系統使用的月度指標是否有提升?
?
?
?
看不見的老功能優化,我們在持續做
在已經上線一段時間的模板性能風險分析&宕機情況分析這兩個功能上面,我們也未滿足于現有的成績,依然不斷驗證準確性、改進算法,力求為用戶提供更可靠的數據。
1、整體概覽
- 得分量化,橫向比較系統月度穩定性波動情況
- 關鍵指標(宕機次數、重啟次數)一目了然,重中之重優先展示
?
2、宕機情況分析
分析宕機時間、問題模板、數據量、耗時、問題數據集、可能存在的問題等
?
3、模板性能風險分析
分析問題模板及數據集,不僅僅在宕機發生后補救,出現不良苗頭就及時處理
?
?
4、效果驗證
通過對部分有條件導出dump文件的客戶進行判斷結果對比,云端運維的宕機、模板分析準確性已有了可觀的提升(案例過多,不做全部展示,且保護用戶隱私,對模板、數據集信息打碼)
dump分析結果:
?
云端運維報告分析結果:
?
現今我們已經取得了這樣的成果,但我們仍在為提升哪怕一個百分點而努力
- 是否宕機及宕機時間判斷準確率(所有宕機場景):76%
- 是否宕機及宕機時間判斷準確率(算法覆蓋的內存異常、CPU異常場景):87%
- 內存異常場景宕機模板判斷準確率(報告所推薦的不多于三張可能造成宕機問題的模板覆蓋到dump分析定位到模板的概率):73%
這一切努力為的只是真正幫到客戶解決問題(不做全部展示,保護用戶隱私,不公布客戶信息)
?
?
?
不易察覺的小細節,我們在用心做
除功能以外,在您不易感知的交互、操作等細節問題上,我們也在默默提升......
- 更直觀的說明圖——一張流程圖讓您了解云端運維的含義
- 更貼心的報告demo預覽——方便您快速了解報告提供的內容、信息
- 更便捷的多月范圍選擇——批量操作時無需多次操作,一步搞定
- 更快速的一鍵上傳——無需繁瑣步驟,一鍵點擊直接生成報告
- 更省心的上傳——取消了勾選以后還需保存的操作,不再因為交互的問題增加困擾
注:此優化在12.04及以后jar版本
?
?
擺脫數據安全困擾,無后顧之憂
在功能優勢的同時,帆軟對于云端的特性也兼顧了數據安全方面的考慮,確保使用沒有后顧之憂。
?
- 數據脫敏——只涉及產品改良和應用運維所需數據,絕不涉及業務數據
- 數據披露——用戶可以隨時看到上傳了哪些數據
- 保密協議——如有需求,可以簽署保密協議(支持線上簽署)
總結
以上是生活随笔為你收集整理的系统运维遇上了大救星,是什么让IT效率提高48%的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Extjs 强大的WEB窗体开发库
- 下一篇: 今天研究 Client本来是关联的Exp