云监控之运维篇
一、服務器的日常監控
1.1?遇到的潛在問題
隨著公司的發展,公司的業務量不斷的增加,網站的訪問量越來越大,如何快速定位到系統的性能瓶頸,有針對性地提升硬件性能,為企業優化信息平臺的投入成本呢?
1.2?云監控如何解決
1.2.1?總體思路:
首先,需要安裝云監控的插件;然后,對服務器的CPU、內存、磁盤、帶寬等指標進行監控;最后,通過設置閾值告警。
當服務器的某項指標達到性能瓶頸時,會自動觸發告警,并及時的通知到運維人員進行處理。實現日常運維里面的自動化告警。
1.2.2?詳細步驟如下:
安裝云監控插件
自定義報警規則
優化告警聯系人設置
1.2.2??測試驗證:
我們可以通過反向設置告警規則來觸發告警,驗證云監控是否可以正常告警。例如,將CPU的閾值設置成小于80%時觸發告警等。由于操作比較簡單,這里就不再贅述。
至此,我們便可以及時地發現服務器的性能瓶頸與異常狀態。
二、服務可用性監控
2.1遇到的問題
當我們發現網站無法被訪問時,其中可能存在的故障點有:
1.??服務器中的相關服務異常
2.??服務器到客戶端的運營商網絡異常。
接到報障信息后,我們需要一個個故障點去排查。一方面,我們需要檢查服務器的監聽端口和相關配置文件是否正常;另一方面,我們呢還需要去排查client—server這一段運營商網絡是否存在異常等問題。我們才能定位到網站訪問異常的故障點。步驟繁瑣,效率底,不能快速定位問題。
2.2?云監控如何解決
2.2.1?總體思路:
使用云監控分別從內網和外網對服務的可用性進行監控,由于使用云監控進行內網進行監控時,跳開運營商網絡異常這個故障點。所以我們指需要綜合內外網的警情況,就可以快速定位到故障發生的位置。
2.2.2?實現步驟如下
1.?建立外網監控
域名僅做舉例,不要雷同哦
2.?建立內網監控
注意:探測源和目標主機同需屬于一個安全組。
3.?測試驗證
I?更改安全組策略模擬運營商網絡異常。
?在安全組中新增一條優先級更高的拒絕外網訪問目標主機80端口的安全策略。
(這里僅做模擬測試,請勿在生產環境操作)
可以收到如下告警信息:
與此同時,內網監控是正常的:
小結:
如果我們只收到外網的監控告警信息,但是沒有收到內網的告警信息,則說明故障點是在外網的網絡運營商。針對運營商問題,可以在云監控上進一步查看受影響的區域。
II?將服務器關機模擬服務本身異常
收到如下告警信息
?
小結:
當我們收到內網的告警信息時,往往還會伴還會隨著外網的告警信息。這就說明服務器的相關服務異常,這就需要我們登陸到服務器上進一步排查造成服務異常的原因。
?
綜上所述,當我們只收到外網的監控告警信息時,說明故障來自外網。當我們同時收到內外網的告警信息時,則說明故障點來自服務器,需要到服務器上排查。
總結
- 上一篇: 泛型(比较杂 后期整理)
- 下一篇: SQL Server物化视图学习笔记