我在蚂蚁金服做SRE
有一種誤解流傳甚廣,認為技術風險工程師是一個“背鍋”的崗位,干著臟活累活……事實真的如此嗎?螞蟻金服技術風險部的孝泰同學以他的親身經歷來“辟謠”,并廣發(fā)英雄帖——螞蟻金服春季校招啟動,歡迎同學們加入技術風險部感受不一樣的風景,畢竟,做好幾萬臺服務器的發(fā)布這種事兒還是非常牛x的。
文/圖 孝泰
前言
畢業(yè)進入螞蟻金服到現在正好兩年,阿里有句老話“一年香,三年陳,五年醇”,現在還在“香”“陳”之間,算不上新人更算不上老人。作為一個從校招就進入螞蟻的同學,從剛開始對 SRE 工作的迷茫質疑,到如今的篤定前行,我想分享一下這兩年我的經歷和感悟。
17 年螞蟻的 offer 來的比往年來的更晚一些,其他公司 offer 都發(fā)了一段時間了,螞蟻的 offer 才姍姍來遲。接到 HR 的電話還是挺振奮的,火急火燎跑到實驗室把 SRE 的崗位說明給老師看了一眼,只記得他皺了皺眉頭說: 嗯,這是一個背鍋的崗位,要慎重,我頓時心頭一緊。其實來了螞蟻之后,我才發(fā)現 SRE 也并沒有老師說得那么夸張,時至今日在招聘的時候我還經常跟人解釋什么是 SRE,以及 SRE(原意為站點可靠性工程師,在螞蟻金服又有了更廣的釋意:技術風險工程師)和 PE(運維工程師)之間的差別,如果說 PE 類似業(yè)務系統的“護士”,SRE 更偏向于“醫(yī)生”的角色,醫(yī)生既要懂基本的護理知識,但更重要的是要能診斷,能治療,甚至還需要設計一些新的診治工具。SRE 也是如此,不僅要支持日常運維,還要能做系統的高可用和資金安全架構設計,參與螞蟻重大項目的技術風險評審和分析,發(fā)現并跟進線上問題及時應急止血,除此之外還要進行技術風險相關核對免疫和故障自愈平臺的開發(fā)建設。
雖說當時對 SRE 工作有些小誤解,但最終還是選擇了螞蟻金服,第一份工作期待一個更高的平臺。取花名的時候試遍了所有想取的名字都被人取過了,最后選中了“孝泰”,一是我這個姓有個歷史人物叫這個名字,兩個字字意也還不錯,二是發(fā)音像“show time”,期望著能在螞蟻秀起來。
“excuse me?還要寫前端”
阿里針對校招生有很完善的培養(yǎng)制度, 剛入職的第一個月基本都在培訓中度過。培訓一完成,就被老大安排到一個業(yè)務團隊去輪崗,要做大安全的 SRE,首先就得熟悉安全的業(yè)務。幾個月的輪崗時光過得很快,和業(yè)務的同學合作也很愉快,臨走的時候給輪崗團隊發(fā)了一封感謝信,然后就興沖沖的回到自己的 SRE 團隊了。
那個時候我們大安全 SRE 團隊算上老大也才 6 個人,一般 SRE 團隊都會分為高可用和資金安全兩個小組,我被安排到了資金安全組,接到的第一個項目是風控數據校驗平臺的建設。這個平臺是干嘛用的呢?眾所周知螞蟻金服的風控技術在業(yè)內是非常先進的,“你敢付,我敢賠”的用戶保障計劃背后就是海量的風控模型和策略在支撐,而這些模型和策略的執(zhí)行又依賴嚴謹正確的大數據。如何保障策略模型計算所依賴數據的完整性、正確性,最大限度的及時識別數據風險,就是我需要攻克的第一個命題。
當時熱情高漲,SOFA 也用了一段時間了,準備大干一場,做了一段時間,老大說前端方案也要看起來,開始丑點也無所謂。聽到要做前端,我雖然嘴上是答應的,但內心是拒絕的,從學計算機開始我就是做 java 棧開發(fā)的,從來沒做過前端,也沒想過將來會做前端,對 js 的理解僅停留在知道 java 和 javascript 的關系是張飛和岳飛。開始的一周挺艱難的,團隊沒有一個會前端,純靠自己摸索和問其他團隊的同學,緩步前進,兩周之后才逐步能上手一點一點把平臺的前后端都搭建起來。其實在螞蟻這種事并不少見,以前沒做過前端的,團隊沒有人做自己也要去做;沒做過數據分析的,業(yè)務需要做,硬著頭皮也得去學怎么清洗數據。畢業(yè)的時候常聽人說,去大公司就是做一顆螺絲釘,但在螞蟻金服需要的并不是一顆一成不變的螺絲釘,而是一個能自適應各種問題的“螺絲釘”,“螺絲釘”不斷進化,直到有一天發(fā)現自己已經不是一顆“螺絲釘”,而是已經成為了整個系統的支架。
“吹個牛x,我也做過數萬臺機器的發(fā)布”
作為 SRE 做一次螞蟻日常藍綠發(fā)布是一件再普通不過的事情了,簡單解釋一下何為藍綠發(fā)布,螞蟻核心應用服務器一般會分為藍綠兩組,日常各分擔 50%的流量,藍綠發(fā)布時流量會先切到其中一組,這樣一組流量是 100%,一組沒有流量,沒有流量的一組就開始發(fā)布,發(fā)布完之后再壓測,壓測完之后流量再被引回來,同理再發(fā)另外一組,一般一次藍綠發(fā)布會持續(xù)兩天。由于會涉及到切流量,并且發(fā)布的應用都是核心鏈路上的關鍵應用,所以至少看上去是一個風險極高的操作,所以常有老司機“嚇?!毙氯苏f操作稍有不慎就能被開除(當然這僅僅只是調侃一下的玩笑話而已)。
一個普通的周三早上,我在百年鍋貼吃著早飯,一個釘釘過來:這周你藍綠發(fā)布,我戰(zhàn)戰(zhàn)兢兢的走到工位點開發(fā)布鏈接,看到發(fā)布單上全是各種名稱帶 core 的應用(螞蟻核心應用名里面一般會有一個 core 字),不禁吸了一口涼氣。我們團隊本來藍綠發(fā)布經驗就比較少,還趕上開會,一個上午就我一個人在工位上瑟瑟發(fā)抖。整整兩天,我都處于精神高度緊繃的狀態(tài),監(jiān)控上每一個漲跌都深深的牽動我的心,流量按照計劃被一點一點切走,應用一個一個被置為已發(fā)布,流量又一點一點被切回來,整個過程中雖然有些小插曲,但在老司機的幫助一下,都平穩(wěn)順利的完成了,在群里同步本次藍綠發(fā)布結束的那一刻,吊著的心才算是放了下來。
那是我第一次對螞蟻金服的技術感到由衷的佩服,要知道不少公司為了降低風險都會把發(fā)布放到凌晨,但螞蟻能在如此大的用戶基數下,在工作日的大白天把全公司最核心的應用發(fā)布交給一個剛入職一年的同學,一定是對發(fā)布切流平臺有著無比的自信,并且對技術風險有全面的把控才敢做的。像這種指揮千軍萬馬的感覺,可能也是只有在螞蟻金服這樣的平臺才能體驗到的,雖說整個發(fā)布過程中我其實沒有啥操作,基本上就是點點按鈕,同步一下應用的 owner,但至少發(fā)布數萬臺機器的牛x是吹出去了。
“恭喜你,晉升了”
來螞蟻的第一年,風控數據校驗平臺探索出了一套緊密結合業(yè)務的運營方案,校驗的場景和覆蓋率快速提升,在風控資金安全保障方面發(fā)揮了重要的作用。除此之外風控結果的正確性校驗也有長足的進步,先后接入了支付、營銷、會員等多個域的風控結果一致性校驗。通過積極主動地參與到資金安全方案的設計和落地實施中,并且在數據分析、前端設計等對我而言的未知領域中不怕困難勇于探索,我的工程能力和業(yè)務理解能力都得到很大的提升。靠著業(yè)務產出的成果和個人的成長,我被提名了那一年的晉升。晉升答辯沒有想象中那么緊張,雖說有時候還是會被問得一愣一愣,感覺自己沒有 get 到評委的點,但大部分問題都還是能應對的,答辯結束之后 HRG 送了我一個書簽,上面寫著“感謝曾經努力的自己”。一個月之后,結果下來了,晉升成功。
在螞蟻晉升之后帶來的一定會是更大的挑戰(zhàn)和責任。晉升之后沒多久,資金安全小組的師兄撤走了,這意味著我必須要獨立負責大安全資金風險整體技術的保障和設計。相較于常規(guī)的螞蟻業(yè)務,大安全的資金安全問題和高可用問題結合得更加緊密,就像人的內傷和外傷,高可用問題是外傷,重點是要及時應急止血,資金安全問題是內傷,重點是要在單筆粒度上對問題的實際影響進行感知,一個是表象,一個是實際影響,沒有完全脫離內傷的外傷,但常常有很多內傷是完全沒有外傷表現的,例如前面提到的風控數據正確性問題。要對風控這個超大數據業(yè)務做精細到單筆的技術保障絕非易事,舉個例子一次故障導致 100 萬筆交易沒有經過風控掃描就完成了,那實際影響是多大呢?是 100 萬筆嗎?一般情況下大部分用支付寶的人是好人,對這部分人即使放過了也不會有實際資損。但要說一點資損沒有嗎?那也是不可能,因為每天風控業(yè)務都會面對大量黑產的攻擊,總之要精細化地發(fā)現風控資金安全的每一筆問題是一件非常有意義也非常有挑戰(zhàn)的事。
負責資金安全的第一年,也曾因為對業(yè)務價值評估不準確,導致投入了大量心血做出來的東西到最后發(fā)現并不能解決實際問題,也曾因為對螞蟻封網節(jié)奏感觸不深,常常搞得束手束腳壓力山大。在阿里有句土話叫“感到不舒服的時候就是在成長的時候”,但真的是難受到崩潰也未必是好事,就像一艘小船,無風難以前進,狂風又容易翻船,要跳出舒適區(qū),也要學會自我調節(jié)。
“屁股更大一點,看得更遠一點”
阿里土話有很多,“屁股要大一點”這句話格外出名,經常聽老大說屁股要大一點,不要只看到自己的一畝三分地。屁股大本意就是說不要被自己所在的位置局限住了思維,要想得更多一點,要心系全站。今年我們的風控數據校驗平臺繼續(xù)穩(wěn)步向前,覆蓋場景相較于去年又翻了幾倍,鑒于目前已經取得的成果,也響應螞蟻金服國際化的號召,今年我們還將校驗能力賦能到國際化站點,為全球更多的用戶保障了準確高效的安全服務。對于現有的校驗能力,我們也并不滿足,正在試水通過 AI 技術進行校驗規(guī)則的推導,校驗異常的聚類識別,并且已經取得一些階段性的成果。除了風控數據校驗以外,風控處理結果準確性校驗也在緊鑼密鼓的進行中。目前螞蟻金服正在大力推進五代架構的升級,在升級過程中如何把控大安全業(yè)務的技術風險,保障風控業(yè)務的正確性,如何對現有的資金安全免疫架構進行升級也是我們接下來所要關心的。
這段時間常被老大問為啥不考慮將現在大安全數據檢驗能力產品化,賦能到全站,能不能屁股大一點,想得更遠一點,但我也有難處,在這里也希望大家能幫個忙,如果有對螞蟻金服 SRE 感興趣的同學,想要和我們一起攻克各種高難度挑戰(zhàn),一起成長的同學,歡迎聯系我,我們在大安全 SRE 團隊等你。
給校招同學的小建議
在校招中拿到螞蟻金服的 offer 是一件非常有成就感的事,需要也值得為之付出大量的努力。對于校招的新人,扎實的基本功一定會是面試官首要關心的,這方面的準備尤為重要。對于知識點的準備我覺得可以分為三層,第一層是能解釋概念,第二層是能說明原理,第三層是了解實際應用的場景。例如在面試中問到了 java 的 volatile 關鍵詞的問題,能說出是保證多線程訪問變量的可見性,并解釋什么是可見性可以得1分;如果能更進一步從 CPU 緩存角度講清楚 volatile 關鍵字的實現原理,可以再得 1 分;由于這個關鍵詞平時用得比較少,可能沒有什么直接使用過的經驗,但如果能答到比如說 Java 的 AtomicInteger 類中為什么會用到 volatile,解決什么實際的問題,又可以再得 1 分,個人覺得能從這三個方面解釋清楚一個知識點,就算是對這個知識點掌握的比較扎實了。
還有一點比較重要的就是要有一個比較清晰的職業(yè)規(guī)劃,你的目標越明確就越能有針對性的進行知識的積累和提高。以螞蟻金服 SRE 工作為例,如果你的目標是想成為一個 SRE 的話,除了前面提到的開發(fā)基本功以外,如果能有一些開源分布式框架的源碼閱讀經驗,并且對其中高可用部分的設計有一定的理解,一定能讓面試官眼前一亮。除此之外在 SRE 團隊發(fā)展的方向有很多,大數據分析,人工智能,云計算的相關知識都會有用到, 如果你能對這些方向上的某一個有所了解也會成為你的加分項。
在面試心態(tài)上一定要自信,應屆生在項目經驗上可能相對比較少,所以有時候會感覺說話沒有底氣,我甚至有遇到面試的同學在面試一開始就說覺得自己技術不太行,項目沒什么挑戰(zhàn),雖然感覺上是挺坦誠的,但其實已經給面試官留下了很不自信的印象了。其實你行不行,項目有沒有挑戰(zhàn)是面試官需要去判斷的,你需要的只是清晰的有條理的把自己的理解說出來就可以了。
在面試策略上,無論你準備得多么充分,前幾次面試的時候也一定會緊張的,所以要多參加一些面試,不要只準備想去公司的面試。很多企業(yè)都會把最優(yōu)秀的員工投入到招聘中,參加面試對于自己沒什么損失,和優(yōu)秀的面試官交流自己的面試能力也會大大提高。如果能在面試你心儀的公司之前,就收割掉大量的 offer 的話,對于公司認同你的價值一定會有很大的幫助。
總之無論現實如何,內心始終要堅信付出一定是會有收獲的,你現在的付出將來一定會以各種形式回饋到你身上。祝各位學弟學妹們好運,期待能在螞蟻金服和你們相遇!
主管寄語
SRE 不是背鍋俠,我們只是對自己有超高的要求,對技術有著極致的追求。所以,孝泰從剛踏入工作崗位的青澀到目前能夠獨擋一面只用了兩年時間。孝泰身上所體現出來素質,希望可以給到大家一些參考:有好奇心,主動學習新技能并加以應用;不甘于平庸,不斷設定新的目標;皮實自省,被挑戰(zhàn)不要緊,仍然先思考自身的問題持續(xù)改進最終取得成果。螞蟻有大量這樣的人才和戰(zhàn)友,大家一起戰(zhàn)斗一起成長。
這里充滿機會,螞蟻服務全世界十億級用戶,有世界級復雜度的業(yè)務場景,航天級服務可靠性的高標準技術要求,技術風險部需要保障 99.999%的服務可用性,0 差錯的資金處理,這背后的挑戰(zhàn)不言而喻。即使如孝泰所說的“螺絲釘”,也代表最硬核的技術沉淀,是富有廣度和深度的技術精華。
這里尊重人才,孝泰加入螞蟻一年即得到晉升,這離不開孝泰的勤奮、努力及堅持,我們贊賞不甘平庸追求上進的同學,也會創(chuàng)造條件培養(yǎng)新同學。聰明、皮實、樂觀、自省是螞蟻的人才觀,發(fā)掘人才并創(chuàng)造條件促其快速成長更是我們的價值觀!
這里開放且平等,我們直呼其名,每一位同學都可以充分發(fā)表意見,工作中孝泰總會提出自己的想法,盡管會被各種挑戰(zhàn),會沮喪,但也會被指導,挫折過后是更清晰的認知和更快速的成長!我們樂于同學們提出新思路,我們希望每位同學都是能夠獨立思考行動的個體。
這里就是螞蟻 CTO 線技術風險部,這里還有大量富有經驗的師兄!
對于即將走上工作崗位的同學們而言,第一次選擇尤其重要,回想自己的工作歷程,第一份選擇帶來的成長厚度或許真的決定了未來可達的高度。同學們,如果你已篤定將來的成長發(fā)展訴求,盡量選擇能夠給自己形成更硬核積累的機會吧。祝同學們早日找到滿意的工作~
加入我們
研發(fā)工程師
1.參與螞蟻高可用/資金安全架構即服務的設計及實現,使應用低成本具備內建自適應的容災容錯能力。
2.參與螞蟻全局架構體系中,風險弱點自動探測識別解決方案設計及工程化落地。
3.參與混沌工程相關架構設計及實現,主導全螞蟻級技術項目落地。
4.參與螞蟻故障定位、自動應急架構設計及實現,主導相關技術項目落地。
歡迎同學們踴躍投遞簡歷,郵箱:paul.pb@antfin.com。
總結
以上是生活随笔為你收集整理的我在蚂蚁金服做SRE的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自动驾驶地图中的深度学习
- 下一篇: 5脚耳机插座原理图_【连载十九】手机维修