云评测 | OpenStack智能运维解决方案 @文末有福利!
戳藍字“CSDN云計算”關注我們哦!
文章摘自?|?《OpenStack架構分析與實踐》
談到OpenStack,一個難以避免的話題就是運維,對于OpenStack的運維而言,隨著其項目的不斷增多,傳統的“人肉運維”方式顯然不能滿足當下及以后的需求。目前,社區中已有與運維相關的組件,或是單獨完成(如:Datadog),或是多個組件共同完成(如:Mistral+Vitrage),許多廠商也都結合容器競相開發自己的運維模塊,由于容器比較輕量級,啟動速度比較快,可以快速影響系統變化。
容器技術可以實現將OpenStack虛擬機數量增加到四倍以上,微服務和SDDC(軟件定義數據中心)又將進一步增加運維人員所要管理的IT資源的數量及分析問題、定位問題的難度。使用AI的方式對OpenStack系統進行監控、調試和糾錯的方案仍處于初級階段,面對強大的AI,在OpenStack中似乎沒有發揮其擁有的功能。
不同廠商的智能運維框架都不盡相同。如宜信開源的AIOps三大利器:UAVStack、Wormhole、DBus。它開發的UAVStack是一個智能服務技術棧,是研發運維一體化的解決方案,開源系列包括全維監控(UAV.Monitor)、應用性能管理(UAV.APM)、服務治理(UAV.ServiceGovern)、微服務計算(UAV.MSCP)。其中,UAV.Monitor+APM為智能運維采集全維監控數據,是一站式的全維監控+應用運維解決方案。
提示:在社區中出現了一個基于容器進行OpenStack部署的解決方案,從運維的角度來看,這樣可以極大的簡化OpenStack中運維出現的問題,借助容器輕量化的實現及快速啟動的特點,完全可以使用容器的高可用替代Pacemaker+Crosync提供的高可用方案。
一、?可視化的Dynatrace
早在巴塞羅那峰會時,就出現了出幾款可以提供運維可視化、智能化的解決方案。先來看一款名為Dynatrace的產品。這是一個可視化的資源管控平臺,包含了對各種資源的監控和監控數據的采集,并且分了不同的層面。對于應用層數據,支持用戶提供關鍵字,從而實現對應用所涉及到的所有資源的查詢與關聯;對于OpenStack來說,有針對OpenStack集群的分析管理,例如:可以管理集群下面運行了多少虛擬機、多少磁盤、多少網絡等,也可以實現對網絡帶寬的監控,監控當前網絡是否處于飽和狀態,通過對資源的分級,可以方便用戶對問題進行分層定位與處理。
圖1是Dynatrace官網給出一張示例圖,圖中展示了部分監控項的可視化圖形。
圖1 Dynatrace圖形界面
從圖1 可以實時的監控當前網卡的吞吐率、IOPS、時延及磁盤的剩余空間等。在其官方給出的介紹中,可以看出,它除了支持可圖形可視化外,還提供了基于AI的數據分析功能、全棧搜索功能、自動修復功能等。
它可以實現對不同云平臺的監控與運維自動化,以數據中心為例,在它提供的監控方案中,它將數據中心一共分為了五層:
第一層,數據中心
第二層,物理主機
第三層,物理機上運行的虛擬機或某些進程
第四層,基于進程對不同的服務進行分類
第五層,將不同的服務進行整合,從而形成一整個“應用”
二、?VirtTool Networks
從它的名字上可以很清楚的看到,它是一個專注于網絡問題的相關產品。它使得對分析OpenStack中的網絡問題更加方便快捷。
首先,通過它提供的圖形界面,可以清晰的看到整個系統中的網絡實時圖,如圖2所示:
?
圖2 實時網絡連接
其次,它也可以獲取某一時刻,系統中網絡設備上的流量熱點,可以方便用戶查看當前系統中,那個節點上的網絡流量比較大或已達到峰值。
圖3 ??網絡流量熱點監控
通過選中某個虛擬機或網絡,可以查看相關資源的局部細節,如圖4所示:
?
圖4 ?云平臺資源詳細信息
除上述功能外,它還可以監控云平臺中任意節點處的流量及流量包的傳輸路徑,這樣可以方便跟蹤與查詢網絡中的丟包現象。
無論面對多么復雜的平臺系統,也不管內部運行多么復雜的業務,要想在針對此平臺做到快速故障定位,可以從以下兩點入手:
平臺中數據可視化展示
平臺中數據資源的關聯
前者可以提供更加友好、更加人性化的交互體驗,這一點可以從Zabbix中得到較好的認證。它是一個專注于監控的產品,但它還是提供了較為簡單的圖形化界面,從界面上可以清晰的看出模板、被監控的主要、監控項、Action及Mediatype之間的關聯關系。而對于像Mysql這樣的產品而言,在可視化方面做還是相對遜色了許多。
后者一方面可以更好的為前者服務,但更重要的一點,它可以將云平臺中相對比較零散的數據進行收集然后做聚合處理,將原先看似孤立的數據整合成一張大大的數據網,有了這張數據的關系網,那么我們再去進行故障分析與定位就相對容易多了。
三、?智能運維Vitrage
Vitrage是社區中的一個對系統進行RCA的項目,那么下面將從運維應用的角度來分析其在OpenStack智能運維中的應用。
提示:在多次OpenStack峰會上,Nokia都展示了其自己通過Mistral和Vitrage實現自動運維和故障修復的案例。
我們先來看這樣一個簡單場景,即當系統中CPU負載過高時,Vitrage將會如何去感知這一變化,繼而感知后如何去將系統恢復到正常狀態。從感知到狀態恢復可以歸結為以下四步:
1.產生告警
當Zabbix監控到某個主機上CPU負載過高時,Vitrage將會產生一個聚合的告警信息,此告警信息會與該主機上的虛擬機相關聯,然后將虛擬機的狀態設置為suboptimal。如圖5所示:
圖5 產生告警
這一過程可以通過模板來表示為:
2.RCA
當CPU過高的主機上有虛擬機,并且此虛擬機上CPU的負載也在持續升高,Vitrage負責分析產生告警的原因,并建立這三者之間的因果關系。如圖6所示:
?
圖6 RCA
同樣可以用模板表示為:
3.設置主機的狀態
當該主機上的CPU過高時,將主機的狀態設置為suboptimal。
?
圖7 設置主機狀態
相應的模板為:
4.觸發狀態恢復
關于其狀態恢復的過程,可以通過與Mistral結合來實現。Mistral是一個工作流組件,可以實現對長流程業務的合理管控。針對本示例中的問題,Vitrage與Mistral結合時的工作流程如圖8所示:
圖8 ?狀態恢復流程
Vitrage接收到CPU負載過高的消息會,會通過Mistarl類型的Notifier將此消息發送到Mistral組件上,Mistral收到Vitrage發送的事件通知后,會調用相應的模板,繼而調用heatclient實現AutoScaling及負載的均衡處理,從而可以將一臺虛擬機的負載分配到其的虛擬機上,從而達到降低負載的作用。
提示:在運維中,比較重要的方面就是如何對故障進行預測,預測完成后,如何基于預測的結果實現相應操作的制定與資源的編排。談到資源編排,不僅云平臺中有這個概念,容器中也會有類似的概念,比如K8S就是可以看作是一種提供編排(不僅限于編排)服務的項目。
云技術書籍,免費送!
《OpenStack架構分析與實踐》本書以實戰開發為原則,以關鍵模塊架構分析及項目開發為主線,通過OpenStack開發中常用的8個典型組件和若干典型項目案例,詳細介紹了云平臺中的計算、網絡、存儲、服務編排、智能運維等模塊,并針對OpenStack中通用的關鍵技術進行了詳細介紹。
?
僅限?5本?,數量有限!
?
參與方式
在本文下方留言:
?
談談關于OpenStack架構分析與實踐相關的話題內容
??
活動信息
?
1、活動時間:2019年2月25日~27日18:00
?
2、中獎(共5名)規則:
?
a.留言評論區點贊前3名;
b.留言評論區中字數最多的2名用戶(最走心);
?
最后感謝中國鐵道出版社的對活動的大力支持!
福利
掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
推薦閱讀:
全面剖析企業私有云
30 秒?!Chrome 插件帶你速成編程學習 | 程序員硬核評測
為什么程序員下班后只關顯示器從不關電腦?
算法警告!該圖片涉嫌違規不予顯示
交易機器人春天已來?先看完這篇再說吧
2019年中國IT市場趨勢熱點
2019年最值得關注的五大微服務發展趨勢
喜歡就點擊“好看”吧
總結
以上是生活随笔為你收集整理的云评测 | OpenStack智能运维解决方案 @文末有福利!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 盖房子房子里放什么聚财 农村新房家里放什
- 下一篇: 买农村旧房子需要多少钱一平方米的?