阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设
導(dǎo)語(yǔ):在2018年開(kāi)放數(shù)據(jù)中心峰會(huì)(Open Data Center Summit 2018)開(kāi)幕式上阿里巴巴研究員劉國(guó)華發(fā)表了《阿里巴巴智能運(yùn)維體系建設(shè)》的主題演講。演講中,劉國(guó)華介紹了智能化給阿里巴巴未來(lái)基礎(chǔ)設(shè)施帶來(lái)的三大價(jià)值:數(shù)據(jù)驅(qū)動(dòng)決策、全局優(yōu)化和變革。基于智能化,阿里巴巴重塑了運(yùn)維體系。通過(guò)智能化建設(shè),基礎(chǔ)設(shè)施的交付效率提升了247%,需求預(yù)測(cè)準(zhǔn)確率達(dá)到了每個(gè)月至少85%,物理機(jī)集群實(shí)現(xiàn)了100%全自動(dòng)化運(yùn)維。以下是他的演講內(nèi)容實(shí)錄。
?
大家好,很榮幸可以跟大家分享一下阿里巴巴在智能化領(lǐng)域的建設(shè)。
在開(kāi)始智能化運(yùn)維之前,先跟大家分享一下過(guò)往兩年內(nèi),阿里巴巴在專(zhuān)業(yè)領(lǐng)域- 里做的大量創(chuàng)新:
- 我們已經(jīng)開(kāi)始大規(guī)模使用液冷集群來(lái)支持高密度計(jì)算
- 我們?cè)贔PGA建設(shè)了統(tǒng)一的編譯平臺(tái),可以提升研發(fā)效率接近30倍以上
- 網(wǎng)絡(luò)端我們也開(kāi)始做大量的創(chuàng)新,總的帶寬從25G到100G到400G
這些創(chuàng)新支持了現(xiàn)有所有AI業(yè)務(wù)的發(fā)展,同時(shí)我們也把AI融入到基礎(chǔ)設(shè)施領(lǐng)域,讓AI重塑現(xiàn)有的基礎(chǔ)設(shè)施。
智能化可以給未來(lái)的基礎(chǔ)設(shè)施帶來(lái)什么?
我們把智能化帶來(lái)的價(jià)值分為三層:
?
最底層是數(shù)據(jù)驅(qū)動(dòng)決策。當(dāng)我們所有的專(zhuān)業(yè)領(lǐng)域業(yè)務(wù)、所有的數(shù)據(jù)逐步實(shí)現(xiàn)在線化,帶來(lái)的第一層價(jià)值是保證演進(jìn)是圍繞著數(shù)據(jù)展開(kāi)的。第二層價(jià)值是,逐步透明化可以幫我們發(fā)現(xiàn)基礎(chǔ)設(shè)施層可以突破的技術(shù)點(diǎn),每家公司的業(yè)務(wù)都是不同的,對(duì)底層也會(huì)有不同的訴求,這是最下層數(shù)據(jù)驅(qū)動(dòng)決策層的價(jià)值。
第二層是全局優(yōu)化。我們把所有的業(yè)務(wù)在線化、全面數(shù)字化之后,我們才有機(jī)會(huì)看到每個(gè)專(zhuān)業(yè)領(lǐng)域里核心的突破點(diǎn)在什么地方。我們都知道,數(shù)據(jù)中心內(nèi)部會(huì)規(guī)劃上架密度,怎樣的上架密度是更合理的方式?傳統(tǒng)的方式是先對(duì)服務(wù)器的功耗提出一個(gè)評(píng)估,然后對(duì)IDC機(jī)架做評(píng)估,而現(xiàn)在的方式是把優(yōu)化變成實(shí)時(shí)動(dòng)態(tài)的方式,來(lái)提升數(shù)據(jù)中心的利用率。
最后一層是變革。當(dāng)我們把智能化的能力運(yùn)用到平臺(tái),就有能力把特殊的點(diǎn)轉(zhuǎn)化為極大的優(yōu)勢(shì)。以前所有的硬件故障發(fā)生的時(shí)候,所有的數(shù)據(jù)中心的運(yùn)維模式都是屬于被動(dòng)式響應(yīng)。當(dāng)智能化后,使用預(yù)測(cè)算法,就可以提前預(yù)估到所有故障,將所有故障的響應(yīng)方式從被動(dòng)響應(yīng)轉(zhuǎn)化為主動(dòng)服務(wù)。
阿里巴巴運(yùn)維體系重塑
智能化建設(shè)最關(guān)鍵的三件事情:
第一, 要把基礎(chǔ)設(shè)施全面數(shù)字化,讓所有東西都變成可衡量的體系。
第二, 建設(shè)端到端、從業(yè)務(wù)到基礎(chǔ)設(shè)施全鏈條的自動(dòng)化平臺(tái),保證你的決策規(guī)劃和響應(yīng)速度。
第三, 建立TCO模型,實(shí)現(xiàn)很好的反饋機(jī)制,利用反饋不斷優(yōu)化我們的模型。
在智能化領(lǐng)域,我們采用的是橫跨專(zhuān)業(yè)、機(jī)器學(xué)習(xí)以及優(yōu)化算法的跨界思考邏輯,基于這樣的思路,阿里巴巴重新規(guī)劃建設(shè)了基礎(chǔ)設(shè)施領(lǐng)域的三大平臺(tái)——基礎(chǔ)設(shè)施規(guī)劃與交付平臺(tái)、集群自動(dòng)化運(yùn)維平臺(tái)和數(shù)據(jù)中心智能運(yùn)營(yíng)平臺(tái)。
通過(guò)為這三大平臺(tái)引入智能化,我們重新創(chuàng)造出了與原來(lái)三大功能平臺(tái)不一樣的業(yè)務(wù)形態(tài)。下面我將具體分享智能化時(shí)代里,我們對(duì)這3大平臺(tái)的改進(jìn)與思考。
一、 基礎(chǔ)設(shè)施規(guī)劃與交付平臺(tái)
首先分享一下阿里巴巴的基礎(chǔ)設(shè)施規(guī)劃與交付平臺(tái)。這個(gè)平臺(tái)的主要職責(zé)從業(yè)務(wù)需求規(guī)劃到基礎(chǔ)設(shè)施規(guī)劃,再到硬件研發(fā)、IDC建設(shè)、生產(chǎn)供應(yīng)鏈以及OS交付、自動(dòng)化交付平臺(tái)。這個(gè)平臺(tái)負(fù)責(zé)阿里巴巴所有基礎(chǔ)設(shè)施的規(guī)劃、建設(shè)與交付。最主要的兩個(gè)職責(zé):第一是提升整體交付效率;第二是保證在不斷供的情況下實(shí)現(xiàn)成本最優(yōu)。
我們?cè)诤芏囝I(lǐng)域里引入算法后,做了很多大的改造。第一個(gè)改造是基于機(jī)器學(xué)習(xí)的方式,建立業(yè)務(wù)規(guī)劃驅(qū)動(dòng)。這種方式可以讓業(yè)務(wù)具有更強(qiáng)的規(guī)劃性,在平臺(tái)可以快速把業(yè)務(wù)的規(guī)劃轉(zhuǎn)化成基礎(chǔ)設(shè)施的規(guī)劃,提升整體的基礎(chǔ)設(shè)施交付鏈路。通過(guò)這種方式,我們提升的效率接近247%。
第二個(gè)改造是,在鏈路已經(jīng)全面在線化的時(shí)候,引入智能預(yù)測(cè)/預(yù)警系統(tǒng),可以實(shí)時(shí)感知到業(yè)務(wù)的任何變化,并且做出實(shí)時(shí)決策。通過(guò)這種方式來(lái)提升運(yùn)營(yíng)效率,保證全面響應(yīng)完全是圍繞業(yè)務(wù)的驅(qū)動(dòng)去建設(shè)的。
第三個(gè)改造,我們?yōu)樗袑?zhuān)業(yè)建設(shè)了供需模擬沙盤(pán)以及上架策略模擬,通過(guò)這種方式可以在線不斷模擬以及優(yōu)化阿里巴巴內(nèi)部供應(yīng)鏈的策略以及上架策略,實(shí)時(shí)反饋到在線系統(tǒng),持續(xù)優(yōu)化供應(yīng)鏈。
我們?cè)谧鲂枨箢A(yù)測(cè),業(yè)務(wù)端的數(shù)據(jù),包括前端的數(shù)據(jù),比如阿里云的銷(xiāo)售數(shù)據(jù),以及下沉的基礎(chǔ)設(shè)施的庫(kù)存體系,結(jié)合機(jī)器學(xué)習(xí)的方式,解決需求預(yù)測(cè)的模式。目前我們的準(zhǔn)確率最少會(huì)達(dá)到每個(gè)月85%左右。我們現(xiàn)在已經(jīng)推動(dòng)所有的業(yè)務(wù)按這種方式運(yùn)作,從而讓基礎(chǔ)設(shè)施的建設(shè)具有極強(qiáng)的規(guī)劃性。
二、集群自動(dòng)化運(yùn)維平臺(tái)
集群自動(dòng)化運(yùn)維平臺(tái)解決的核心問(wèn)題是:
一、 怎樣提升服務(wù)器規(guī)模化后的運(yùn)維效率問(wèn)題,以及基于業(yè)務(wù)視角的成本最優(yōu)的解決方案。
二、 怎么保證業(yè)務(wù)的穩(wěn)定性。基礎(chǔ)設(shè)施下面的任何故障不會(huì)影響上面所有業(yè)務(wù)的發(fā)展。
但是,當(dāng)你業(yè)務(wù)發(fā)展規(guī)模到一定階段的時(shí)候,故障一定是不可避免的,我們?cè)趺醋?#xff1f;
第一,阿里巴巴集群運(yùn)維平臺(tái)建設(shè)了一個(gè)全自動(dòng)化的運(yùn)維方式,這種運(yùn)維方式最大的優(yōu)勢(shì)在于,我們跟所有業(yè)務(wù)調(diào)度的方式,用了一種高標(biāo)準(zhǔn)的協(xié)議交互模式,可以把所有物理機(jī)的運(yùn)維跟上層運(yùn)維相互解耦,實(shí)現(xiàn)無(wú)人化的運(yùn)維。阿里巴巴現(xiàn)在物理機(jī)集群已經(jīng)100%運(yùn)用全自動(dòng)化運(yùn)維方式,這是第一層在工程上的建設(shè)結(jié)果。
在智能化領(lǐng)域,我們還為所有的業(yè)務(wù)的提供基于業(yè)務(wù)視角的數(shù)據(jù)決策支撐的平臺(tái)。平臺(tái)最大的價(jià)值在于:第一,基于我們的數(shù)據(jù)平臺(tái),可以把我們所有基礎(chǔ)設(shè)施的成本、利用率融入到業(yè)務(wù)調(diào)度里,實(shí)現(xiàn)成本最優(yōu)化;第二,通過(guò)對(duì)不同類(lèi)型業(yè)務(wù)的專(zhuān)業(yè)優(yōu)化,來(lái)提升整體業(yè)務(wù)的成本競(jìng)爭(zhēng)力。
第二,我們引入了一些算法去做智能異常檢測(cè),包含兩部分:第一部分是我們?cè)诨A(chǔ)設(shè)施領(lǐng)域在硬件領(lǐng)域做了大量的故障預(yù)測(cè),通過(guò)故障預(yù)測(cè)去提前發(fā)現(xiàn)故障;第二部分是業(yè)務(wù)變更預(yù)測(cè),我們會(huì)把所有業(yè)務(wù)的變更通過(guò)這個(gè)平臺(tái)進(jìn)行預(yù)測(cè),來(lái)看它變更后帶來(lái)的業(yè)務(wù)的影響。通過(guò)這樣預(yù)測(cè)的方式,結(jié)合剛才介紹的集群運(yùn)維的主動(dòng)服務(wù)能力,可以把集群運(yùn)維的方式從原來(lái)被動(dòng)的響應(yīng)式逐步轉(zhuǎn)到現(xiàn)在做的主動(dòng)服務(wù)式的模式。我們?cè)谟脖P(pán)故障上的預(yù)測(cè)結(jié)果,在萬(wàn)分之八的誤報(bào)率條件下,召回率比業(yè)界最新進(jìn)展提升20%以上,我們還在做宕機(jī)、網(wǎng)絡(luò)故障預(yù)測(cè)以內(nèi)層故障預(yù)測(cè),會(huì)堅(jiān)持用這種方式逐步把我們運(yùn)維的模式從原來(lái)被動(dòng)響應(yīng)轉(zhuǎn)成主動(dòng)服務(wù)。
三、數(shù)據(jù)中心智能運(yùn)營(yíng)平臺(tái)
最后一個(gè)平臺(tái)是阿里巴巴的數(shù)據(jù)中心運(yùn)營(yíng)平臺(tái),這個(gè)平臺(tái)的目標(biāo)是提升數(shù)據(jù)中心內(nèi)部運(yùn)營(yíng)效率以及實(shí)現(xiàn)能耗最優(yōu)。
怎么解決運(yùn)維效率的問(wèn)題?通過(guò)智能的方式建設(shè)一個(gè)自主運(yùn)維平臺(tái),通過(guò)很多算法的決策來(lái)盡可能提升自主運(yùn)維的成功率。目前為止,通過(guò)這種方式我們可以把阿里巴巴每個(gè)人運(yùn)維的服務(wù)器臺(tái)數(shù)提升接近60%。
我們會(huì)建設(shè)一個(gè)全局能耗平臺(tái)來(lái)做全局動(dòng)態(tài)節(jié)能體系,我們會(huì)在每個(gè)領(lǐng)域做深度能耗優(yōu)化,把能耗的數(shù)字化逐步跟上層業(yè)務(wù)結(jié)合起來(lái),提升機(jī)柜利用率。對(duì)于最核心的業(yè)務(wù),我們最大可以提升接近20%的機(jī)柜密度。
同時(shí)我們?cè)谧鰧?zhuān)業(yè)領(lǐng)域的彈性機(jī)柜電力的創(chuàng)新,未來(lái)會(huì)把利用率提升更高,希望未來(lái)在數(shù)據(jù)中心可以把電力利用率和設(shè)計(jì)利用率相符。這是基于機(jī)器學(xué)習(xí)的算法做PUE的優(yōu)化,目前通過(guò)深度學(xué)習(xí)的方式在現(xiàn)在的機(jī)房實(shí)測(cè)可以優(yōu)化接近20%的PUE。未來(lái)數(shù)據(jù)中心的優(yōu)化聯(lián)動(dòng)會(huì)全自動(dòng)化,實(shí)現(xiàn)動(dòng)態(tài)優(yōu)化PUE。
除了剛才介紹的供應(yīng)鏈、服務(wù)器、數(shù)據(jù)中心外,我們?cè)趹?yīng)用層、監(jiān)控、集群運(yùn)維都會(huì)大量投入智能化,實(shí)現(xiàn)全方位的智能化建設(shè)。
我今天分享就到這里,謝謝大家!
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 一文带你领略虚拟化领域顶级技术会议KVM
- 下一篇: 基于深度学习模型WideDeep的推荐