云原生化的迁云实战
云原生的時(shí)代已經(jīng)到來(lái),云原生技術(shù)正在重塑整個(gè)軟件生命周期,阿里巴巴是國(guó)內(nèi)最早布局云原生技術(shù)的公司之一。
容器服務(wù)團(tuán)隊(duì)在過(guò)去的幾年時(shí)間內(nèi)幫助很多用戶(hù)成功把業(yè)務(wù)云原生化并遷移上云,其中有現(xiàn)在已經(jīng)是我們TOP10的大客戶(hù),也有需要在國(guó)內(nèi)開(kāi)展業(yè)務(wù)的海外用戶(hù),有些是從其他云廠(chǎng)商遷移過(guò)來(lái)的用戶(hù),有些是從IDC里遷移上云的用戶(hù),而且越來(lái)越多的用戶(hù)開(kāi)始咨詢(xún)?nèi)绾螌?duì)自己的應(yīng)用做云原生化改造、如何把業(yè)務(wù)平滑地遷移到云上。每個(gè)用戶(hù)的業(yè)務(wù)場(chǎng)景都是不同的,有些差異化的業(yè)務(wù)場(chǎng)景對(duì)容器平臺(tái)也有一些定制化的需求,我們?cè)趲椭@些用戶(hù)落實(shí)遷云方案的同時(shí)也在不斷思考如何把這些案例中共性的東西做一些沉淀,總結(jié)出一些優(yōu)秀的解決方案、最佳實(shí)踐以及開(kāi)發(fā)一些工具來(lái)幫助用戶(hù)快速完成遷云的這件事情。這些解決方案、最佳實(shí)踐以及遷云工具就是今天這篇文章想要分享的內(nèi)容。
在幫助用戶(hù)落實(shí)遷云方案之前,我們首先必須要回答至少3個(gè)問(wèn)題:(1)ACK(阿里云容器服務(wù)Kubernetes)如何能保證用戶(hù)業(yè)務(wù)的可靠性、穩(wěn)定性、安全性和靈活性;(2)如何設(shè)計(jì)遷云方案把業(yè)務(wù)平滑地遷移到ACK;(3)應(yīng)用如何做進(jìn)一步改造來(lái)適配ACK提供的更強(qiáng)大的擴(kuò)展能力。
1. ACK如何保證用戶(hù)業(yè)務(wù)的可靠性、穩(wěn)定性、安全性和靈活擴(kuò)展性
首先,ACK是以阿里云可靠穩(wěn)定的IaaS平臺(tái)為底座的,有最大的彈性化與低廉成本和全球化接入的優(yōu)勢(shì);其次,ACK本身處于阿里云的安全體系架構(gòu)之下并從基礎(chǔ)設(shè)施到容器運(yùn)行時(shí)環(huán)境對(duì)容器集群有全維度的安全加固;過(guò)去幾年我們很好地支撐了成百上千家大小企業(yè)的業(yè)務(wù)運(yùn)行,有海量用戶(hù)經(jīng)驗(yàn)總結(jié)并經(jīng)過(guò)雙11驗(yàn)證;除此之外。ACK是在標(biāo)準(zhǔn)的Kubernetes基礎(chǔ)上,對(duì)與用戶(hù)息息相關(guān)的能力做了大幅提升,用戶(hù)完全不需要擔(dān)心會(huì)被某一家廠(chǎng)商綁定。
在我們過(guò)去幫助用戶(hù)業(yè)務(wù)上云的案例中,絕大部分是自建Kubernetes集群遷移到ACK集群,與自建Kubernetes集群相比較,ACK在成本、彈性、IaaS高度融合、性能、安全加固以及實(shí)踐經(jīng)驗(yàn)等方面都有非常巨大的優(yōu)勢(shì)。
另外,ACK與阿里云的所有region保持一致,除了國(guó)內(nèi)多個(gè)區(qū)域開(kāi)服外,在東南亞、中東、歐洲、美東美西都有開(kāi)服,完全可以滿(mǎn)足用戶(hù)開(kāi)展全球業(yè)務(wù)的需求。
2. 整體遷云方案設(shè)計(jì)
用戶(hù)業(yè)務(wù)整體遷云的方案設(shè)計(jì)會(huì)涉及到集群規(guī)劃、數(shù)據(jù)搬遷、監(jiān)控切換、日志切換以及最終的生產(chǎn)流量切換或并網(wǎng)操作。
遷云到ACK需要做涉及到哪些組件、搬遷哪些數(shù)據(jù)、切換哪些服務(wù)等,都是需要用戶(hù)又清晰的概念的。首先需要做集群規(guī)劃,用戶(hù)需要根據(jù)自己業(yè)務(wù)場(chǎng)景的不同來(lái)選擇不同的機(jī)器類(lèi)型,比如CPU機(jī)器還是GPU機(jī)器,比如虛擬服務(wù)器ECS還是神龍裸金屬服務(wù)器等等,網(wǎng)絡(luò)規(guī)劃這部分會(huì)涉及到容器集群基礎(chǔ)設(shè)施選擇vpc內(nèi)網(wǎng)網(wǎng)絡(luò)還是經(jīng)典網(wǎng)絡(luò),集群內(nèi)pod之間進(jìn)行通信模式是flannel模式還是terway模式等,在容量規(guī)劃這部分,用戶(hù)可以根據(jù)自己的成本以及預(yù)算規(guī)劃一個(gè)可滿(mǎn)足初期業(yè)務(wù)正常運(yùn)行的容量即可,隨后可以配置動(dòng)態(tài)擴(kuò)縮容隨時(shí)彈縮集群規(guī)模;在安全防護(hù)提升這部分,有基礎(chǔ)架構(gòu)安全比如設(shè)置合理的安全組規(guī)則,有鏡像安全比如使用私有鏡像并定義鏡像安全掃描,K8S應(yīng)用安全管理比如設(shè)置不同服務(wù)間互相訪(fǎng)問(wèn)的網(wǎng)絡(luò)安全策略等;
監(jiān)控切換這部分相對(duì)于用戶(hù)自建Kubernetes會(huì)更加全維度和立體,從基礎(chǔ)設(shè)施到容器運(yùn)行時(shí)監(jiān)控一應(yīng)俱全,并可根據(jù)閾值設(shè)定觸發(fā)報(bào)警通知;用戶(hù)一般也會(huì)把自建的日志收集方案切換成阿里云上企業(yè)級(jí)的日志產(chǎn)品SLS;數(shù)據(jù)遷移是非常重要的一部分,這些數(shù)據(jù)包括數(shù)據(jù)庫(kù)數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、容器鏡像等,我們會(huì)對(duì)接阿里云上企業(yè)級(jí)的粗出產(chǎn)品以及遷移工具,目的是為了保證數(shù)據(jù)遷云的可靠性、安全性;應(yīng)用改造主要涉及的內(nèi)容包括鏡像地址的更新、服務(wù)暴露方式的優(yōu)化以及存儲(chǔ)盤(pán)掛載方式的更新適配;最后提供一個(gè)滿(mǎn)足用戶(hù)快速迭代上線(xiàn)產(chǎn)品的CICD方案。以上各個(gè)組件調(diào)試完畢后,我們就可以進(jìn)行一部分生產(chǎn)流量的切換。以上從集群規(guī)劃到生產(chǎn)流量切換便是用戶(hù)業(yè)務(wù)遷移上云所需要涉及到的方方面面。
我們提供了一個(gè)企業(yè)容器化生命周期模型,這個(gè)模型是根據(jù)時(shí)間階段和用戶(hù)側(cè)各個(gè)業(yè)務(wù)角色來(lái)劃分的,比如業(yè)務(wù)架構(gòu)師角色需要關(guān)心的是業(yè)務(wù)上云能給公司帶來(lái)什么價(jià)值,在TCO和場(chǎng)景上會(huì)帶來(lái)哪些優(yōu)化,云平臺(tái)在安全性以及計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)能力上是否能滿(mǎn)足當(dāng)前業(yè)務(wù)需求;IT架構(gòu)師負(fù)責(zé)規(guī)劃當(dāng)前業(yè)務(wù)需要的集群容量和規(guī)模以及網(wǎng)絡(luò)選型等問(wèn)題,剩下的就是系統(tǒng)管理員與應(yīng)用管理員把遷云方案的各個(gè)細(xì)節(jié)落實(shí)下來(lái)。這個(gè)模型的主要核心關(guān)注點(diǎn)是讓用戶(hù)的業(yè)務(wù)上云后能更穩(wěn)定、成本更低、效率更高。
全棧遷云架構(gòu)思路分兩種,一種是整體遷移,一種是平滑遷移。整體遷移是指用戶(hù)應(yīng)用全部遷移上云后,各個(gè)組件調(diào)試完畢、測(cè)試驗(yàn)收通過(guò)后,可以整體切換生產(chǎn)流量到線(xiàn)上集群,待線(xiàn)上集群上的業(yè)務(wù)穩(wěn)定運(yùn)行一段時(shí)間后再下線(xiàn)原有環(huán)境。平滑遷移是指用戶(hù)可以使用線(xiàn)上ACK集群納管線(xiàn)下節(jié)點(diǎn),或者線(xiàn)上集群與線(xiàn)下集群混合組網(wǎng)對(duì)外提供服務(wù),逐步改造業(yè)務(wù)組件上云后將原有環(huán)境下線(xiàn)。這兩種方式相比,整體遷移更簡(jiǎn)單,平滑遷移響度復(fù)雜但對(duì)業(yè)務(wù)影響小,所以也需要根據(jù)用戶(hù)的實(shí)際場(chǎng)景做選擇。
容器化整體遷云這部分還有兩個(gè)小場(chǎng)景,一個(gè)是用戶(hù)從自建Kubernetes集群遷移到ACK,此場(chǎng)景下用戶(hù)的應(yīng)用已經(jīng)做了很大一部分的云原生化改造,遷移工作相對(duì)來(lái)說(shuō)會(huì)簡(jiǎn)單些,還有一部分用戶(hù)的應(yīng)用是傳統(tǒng)應(yīng)用,直接運(yùn)行在虛擬機(jī)或者裸金屬服務(wù)器上,沒(méi)有做過(guò)任何云原生化的改造,對(duì)于這部分場(chǎng)景,我們也提供了相關(guān)工具或方案幫助用戶(hù)進(jìn)行云原生化的遷云改造,比如使用derrick項(xiàng)目可以自動(dòng)檢測(cè)源碼項(xiàng)目類(lèi)型并生成Dockerfile和用于應(yīng)用部署編排的yaml文件,比如我們正在聯(lián)合ECS SMC(遷云中心)開(kāi)發(fā)的虛擬機(jī)轉(zhuǎn)換容器鏡像并運(yùn)行在A(yíng)Ck集群中的能力。
為了幫助用戶(hù)提高遷云的效率,我們也在持續(xù)積累和開(kāi)源一些遷云工具。比ack-image-builder為用戶(hù)提供創(chuàng)建ACK集群節(jié)點(diǎn)自定義鏡像的模板并通過(guò)校驗(yàn)?zāi)K檢查自定義鏡像是否滿(mǎn)足ACK集群要求;sync-repo能夠幫助用戶(hù)快速完成容器鏡像批量遷移至ACR(容器鏡像倉(cāng)庫(kù)服務(wù));?velero能夠幫助用戶(hù)快速把其他云廠(chǎng)商后者自建Kubernetes集群下的完整應(yīng)用遷移至ACK集群。
Velero遷移Kubernetes應(yīng)用到ACK視頻DEMO
在數(shù)據(jù)搬遷部分,可靠遷移是關(guān)鍵,根據(jù)用戶(hù)數(shù)據(jù)類(lèi)型的不同,我們會(huì)使用與之匹配的企業(yè)級(jí)遷移工具,比如數(shù)據(jù)在線(xiàn)遷移服務(wù)DOMS,比如OSS的遷移工具,還有離線(xiàn)海量數(shù)據(jù)遷移方案閃電立方等。
數(shù)據(jù)、應(yīng)用遷云完成后,需要進(jìn)一步適配監(jiān)控、日志等組件,待各個(gè)組件調(diào)試完畢通過(guò)驗(yàn)收后,可以使用智能DNS進(jìn)行生產(chǎn)流量的切割。
3. 應(yīng)用改造和優(yōu)化
對(duì)于應(yīng)用改造和優(yōu)化這部分,K8s到K8s的場(chǎng)景下,需要優(yōu)化的是去適配自動(dòng)擴(kuò)容等自建K8s不具備的那些能力,在傳統(tǒng)應(yīng)用遷移到ACK的場(chǎng)景下,這部分的工作量會(huì)更大些,所以我們針對(duì)這個(gè)場(chǎng)景也輸出了一些方案,比如類(lèi)似于異地多活的方案,我們把用戶(hù)傳統(tǒng)應(yīng)用環(huán)境,通常是虛擬機(jī)或者裸機(jī)環(huán)境集成到線(xiàn)上ACK部署的Istio網(wǎng)格中,逐步改造應(yīng)用直至業(yè)務(wù)全部切換到線(xiàn)上ACK集群。
在應(yīng)用逐步改造的這個(gè)過(guò)程中,會(huì)涉及到應(yīng)用如何容器化、網(wǎng)絡(luò)環(huán)境如何遷移以及數(shù)據(jù)遷移的問(wèn)題,應(yīng)用容器化這個(gè)問(wèn)題,我們可以使用前面我提到過(guò)的一個(gè)服務(wù)叫做SMC遷云中心來(lái)完成虛擬機(jī)轉(zhuǎn)換為容器鏡像的過(guò)程,網(wǎng)絡(luò)這部分可以通過(guò)iptables,External,CoreDNS PrivateZone等方式對(duì)IP地址DNS域名做處理,保持原先的邏輯IP和域名不變,并通過(guò)Istio實(shí)現(xiàn)網(wǎng)絡(luò)虛擬路由和可觀(guān)測(cè)性的管理。
4. 案例
接下來(lái)是部分遷云案例,有對(duì)高性能網(wǎng)絡(luò)有特殊需求的用戶(hù),有做深度學(xué)習(xí)相關(guān)業(yè)務(wù)對(duì)大規(guī)模GPU機(jī)器有需求的用戶(hù),有要求裸金屬機(jī)型服務(wù)器的用戶(hù)等等。
5. 總結(jié)
不同用戶(hù)的不同業(yè)務(wù)場(chǎng)景在云原生化遷云方案的設(shè)計(jì)和落實(shí)上都有各自的差異性,不盡相同,需要結(jié)合ACK團(tuán)隊(duì)沉淀下來(lái)的最佳實(shí)踐來(lái)快速做出評(píng)估和計(jì)劃,并借助已有的一系列遷云工具快速完成業(yè)務(wù)從線(xiàn)下遷移上云的過(guò)程。
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
- 上一篇: Flink State 有可能代替数据库
- 下一篇: 这一团糟的代码,真的是我写的?!