鹅厂开源先锋,日均计算量超30万亿,全力打破数据墙
開源,開源,開源。
這就是騰訊2019年技術(shù)領域最直觀的變化。
最新代表事件,來自于騰訊首個開源的AI項目Angel,完成3.0版本進化后,得到全球技術(shù)專家認可,從開源基金會LF AI畢業(yè),成為業(yè)內(nèi)頂級AI開源項目。
這是中國首個得此認可的項目,消息傳來自是引發(fā)好評熱議。不過,這只是騰訊過去這一年開源成績的注腳之一。
過去一年,騰訊開源勢頭愈發(fā)兇猛。截止12月份,對外開源項目超過92個,覆蓋所有BG(事業(yè)群),微信、騰訊云、大數(shù)據(jù)、游戲、AI、安全等業(yè)務都在其中,累計獲得超27萬標星,贏得一片贊譽。
騰訊已然成為全球開源大廠之一。在這其中,騰訊大數(shù)據(jù)貢獻不小。
騰訊業(yè)務的技術(shù)支撐方,騰訊大數(shù)據(jù)接連將自身核心組件開源,推動騰訊走向中國大數(shù)據(jù)領域開源最全面的廠商。
騰訊數(shù)據(jù)平臺部總經(jīng)理、AMS平臺總經(jīng)理、智慧零售戰(zhàn)略合作部總經(jīng)理蔣杰說,接下來將會持續(xù)推進,將整個大數(shù)據(jù)平臺的所有東西全部開源。
為什么要如此“激進”開源?具體到業(yè)務中,他們發(fā)展如何?又有怎樣的開源邏輯?
蔣杰對過去一年的總結(jié)回答,能夠給出參考答案。
騰訊數(shù)據(jù)平臺部總經(jīng)理、AMS平臺總經(jīng)理蔣杰
作為騰訊開源先鋒,騰訊大數(shù)據(jù)的回答,也傳遞著整個騰訊的開源策略與邏輯。所以鵝廠開源如何,不妨看下騰訊大數(shù)據(jù)。
開源底氣:每日數(shù)據(jù)計算量超 30 萬億
2019年,是騰訊大數(shù)據(jù)平臺成立的第十個年頭,已經(jīng)從零發(fā)展成為了整個集團業(yè)務的關鍵支撐:
每天有 1500 萬的分析任務、30 萬億次的實時計算量,并且每天數(shù)據(jù)接入條數(shù)達 35 萬億條數(shù)據(jù)?;隍v訊云的分布式機器學習平臺,能支撐 1 萬億維度的數(shù)據(jù)訓練。
為什么能夠做到這一點?來自于強大的技術(shù)實力。騰訊官方說法,經(jīng)歷10年發(fā)展,大數(shù)據(jù)平臺已經(jīng)建立起了“大數(shù)據(jù) +AI”雙引擎技術(shù)架構(gòu),立身于行業(yè)第一梯隊。
尤其是核心項目之一騰訊第三代計算平臺Angel,發(fā)展到3.0版本之后,已經(jīng)能支持萬億維度數(shù)據(jù),同樣也可以兼容 Spark、PyTorch、TensorFlow 等生態(tài),進一步降低了使用門檻,可擴大了兼容性。
雖然只需幾句話,就能描述出系統(tǒng)概況,但想要打造這樣一個系統(tǒng),并不簡單。
“整個過程中,你會遇到網(wǎng)卡的瓶頸,存儲瓶頸,包括丟數(shù)據(jù)各種問題,”蔣杰說,“做系統(tǒng)是靠踩的一堆坑,有血的教訓,一堆故障,才慢慢磨煉出來的。”
蔣杰解釋稱,對于騰訊這樣體量的公司,也是如此。其開放出去的能力和技術(shù),更是經(jīng)歷了很多考驗。
原因也很簡單,別人在你這踩坑了, 還會對你有信任感嗎?“我們想要當領先者,但不是先烈,”蔣杰說。
如何做?他給出了一個關鍵詞:“價值驅(qū)動”。
平臺的發(fā)展不是閉門造車,而是跟著業(yè)務發(fā)展來發(fā)展,基于數(shù)據(jù)價值的驅(qū)動來演進。整個過程,是技術(shù)依賴于業(yè)務成長,技術(shù)回過頭去反哺業(yè)務發(fā)展。
這也是騰訊大數(shù)據(jù)10年發(fā)展的路徑。
從引進到自研再開源:騰訊大數(shù)據(jù)迎來轉(zhuǎn)折點
從2009年開始,騰訊大數(shù)據(jù)平臺經(jīng)歷離線計算、實時計算與機器學習三個階段。
第一階段,基于開源的Hadoop體系,離線計算平臺,主要發(fā)力規(guī)?;V饕臉I(yè)務導向是替代傳統(tǒng)的數(shù)據(jù)倉庫,做基于報表的服務。
這一階段持續(xù)了3年,實現(xiàn)了從關系型數(shù)據(jù)庫到自建大數(shù)據(jù)平臺的全面遷移。
但到了2012年左右,移動互聯(lián)網(wǎng)開始火爆起來,用戶特征與用戶畫像方面的數(shù)據(jù)進一步豐富。
電商商品推薦,新聞的推薦等算法對數(shù)據(jù)平臺提出了更高要求,第一階段只有T+1的報表顯然不夠用,需要小時級、分鐘級、秒級的實時監(jiān)控。
因此,原來的Hadoop轉(zhuǎn)向Spark和Storm體系,在吸收開源技術(shù)的基礎上,結(jié)合騰訊自身的需求進行重寫,提供實時報表,實時查詢、實時監(jiān)控等支持。并開始了探索流式計算、秒級采集系統(tǒng)的建設,構(gòu)建企業(yè)級的實時數(shù)據(jù)分析體系。
這一階段同樣是持續(xù)了3年。蔣杰說,這一階段完成后,騰訊大數(shù)據(jù)能力就已經(jīng)位于國內(nèi)第一梯隊了。
到了2015年,數(shù)據(jù)量進一步增長,人群特征維度更多,廣告推薦體系出現(xiàn)了一定的瓶頸。大數(shù)據(jù)平臺向第三階段發(fā)展,建設機器學習平臺,支持騰訊各業(yè)務數(shù)據(jù)挖掘的需求。
并于2016年推出了自研機器學習平臺Angel,專攻復雜計算場景,可進行大規(guī)模的數(shù)據(jù)訓練,支撐內(nèi)容推薦、廣告推薦等AI應用場景,建立起了“大數(shù)據(jù) +AI”雙引擎技術(shù)架構(gòu)。
整個過程中騰訊大數(shù)據(jù)提升了集群可擴展性,相對于原生調(diào)度器性能提升150倍,2016 年,騰訊打破 Sort Benchmark 四項世界紀錄,標志著算力已經(jīng)達到世界領先水平。
從業(yè)務中來,到業(yè)務中去,形成了騰訊大數(shù)據(jù)平臺技術(shù)迭代的循環(huán)。
得益于開源,回饋于開源,是騰訊大數(shù)據(jù)甚至騰訊在技術(shù)社區(qū)中循環(huán),也是其不斷推動開源的驅(qū)動力之一。
全力打破數(shù)據(jù)墻,開源中向第四代大數(shù)據(jù)平臺迭代
2019年,也是騰訊大數(shù)據(jù)平臺第四代升級的元年。
蔣杰介紹稱,騰訊正在研究以批流融合、ABC融合、以及數(shù)據(jù)湖和聯(lián)邦學習為方向的下一代大數(shù)據(jù)平臺的研究。
同樣,這一平臺的迭代也是來自于業(yè)務價值驅(qū)動——數(shù)據(jù)覆蓋面更廣更大,數(shù)據(jù)安全和隱私保護成為新的問題。
在物聯(lián)網(wǎng)、云計算以及人工智能技術(shù)的推廣應用下,平臺需要具備混合部署、跨域數(shù)據(jù)共享和邊緣計算等能力。
這背后也隱藏著大數(shù)據(jù)行業(yè)最大的障礙:數(shù)據(jù)墻。
“把數(shù)據(jù)共享出來,其實把自己的后背交給別人,誰也不愿意,這是最大的困難?!笔Y杰說。
這也是環(huán)境使然,過去一年,數(shù)據(jù)泄露席卷各行各業(yè),從金融保險、教育、醫(yī)療、科技到政府無一幸免,規(guī)模甚至達到十幾億。
另一方面,歐洲發(fā)布《通用數(shù)據(jù)保護條例》之后,整個行業(yè)對數(shù)據(jù)保護的重視度越來越高。
“不在共享情況下能夠得到共享,聯(lián)邦學習是一個方向。我們希望通過混合部署,漂移計算,加上整個聯(lián)邦學習,構(gòu)建嚴格的安全管控體系,打破這個數(shù)據(jù)墻?!?/p>
業(yè)務價值已經(jīng)明確, 騰訊大數(shù)據(jù)平臺也開始展開了行動。蔣杰表示,明年將會把聯(lián)邦學習落實到場景中。與此同時,相關的研究成果也會同步開源出來。
鵝廠開源忙,大數(shù)據(jù)平臺為先鋒所以騰訊為何開源?騰訊大數(shù)據(jù)的2019,能夠給出部分答案:
首先,騰訊大數(shù)據(jù)早期發(fā)展得益于開源項目,從第一階段的Hadoop到第二階段的Spark等等,開源項目都提供了幫助。
其次,騰訊大數(shù)據(jù)在發(fā)展過程中,技術(shù)實力快速發(fā)展,技術(shù)實力能夠拿出來,給更多的人使用,從而讓社區(qū)不再重復造輪子踩坑。
這是具體業(yè)務層面上的考慮,但提高視角,放到整個騰訊甚至整個行業(yè)來說,又能得到不同角度的答案。
開源協(xié)同是騰訊當下最重要的技術(shù)戰(zhàn)略之一。
對于騰訊來說,內(nèi)部的開源協(xié)同,實際上是對最底層和共性技術(shù)能力的一次梳理和拉通,一方面是減少重復造輪子,另一方面提升公司的研發(fā)效能和運營效率。
在內(nèi)部協(xié)同共建的基礎上,騰訊在推動更底層、更重磅的技術(shù)對外開放,不斷完善開源治理,打造開發(fā)者共建的生態(tài)。
2019年,由騰訊大數(shù)據(jù)主導的協(xié)同小組Oteam,共建了一個名為“天穹”的大數(shù)據(jù)項目,將騰訊六大事業(yè)群的大數(shù)據(jù)相關的系統(tǒng)做了統(tǒng)一,希望打造成一個具有統(tǒng)一技術(shù)棧的公司級大數(shù)據(jù)平臺體系。
蔣杰介紹說:“一項開源的技術(shù)能夠有良好的發(fā)展,常常需要背靠一個強大的公司,具有一定的經(jīng)濟實力和良好的業(yè)務發(fā)展。騰訊有強大的業(yè)務支撐,這使得我們能夠去投入研發(fā)最好的技術(shù),走在行業(yè)的最前沿。
目前,騰訊內(nèi)部已協(xié)同的項目橫跨了各個技術(shù)領域,經(jīng)過海量用戶驗證。騰訊正在源源不斷向開源社區(qū)輸出優(yōu)質(zhì)開源項目。
今年8月份,馬化騰首次對外談起騰訊開源,進一步表明了騰訊對待開源的態(tài)度:
騰訊希望在科研領域投入更多力量,把“科技向善”納入公司新的使命與愿景。我們將通過內(nèi)外部開放源代碼等方式,積極參與“全球科技共同體”的共建。當然,對于騰訊來說,開源也是戰(zhàn)略的體現(xiàn),不僅僅在于“科技向善”愿景的落實,更有布局產(chǎn)業(yè)互聯(lián)網(wǎng)的考慮。
通過有價值的開源項目,會吸引更多的用戶加入騰訊生態(tài),推動機器學習和人工智能的廣泛應用。
騰訊開源也在與騰訊云緊密結(jié)合,為開發(fā)者提供更多便利的基礎服務、工具和開源項目。
目前,騰訊已經(jīng)把網(wǎng)絡、存儲、數(shù)據(jù)庫等IaaS能力,大數(shù)據(jù)、機器學習等PaaS的能力,以及上層的圖像、語音、NLP、BI等SaaS能力,通過騰訊云對外開放。
小爭爭事,大爭爭勢,起于2010年的騰訊開放戰(zhàn)略,在2020年到來之時,也變得愈發(fā)成熟,騰訊的格局也變得越來越大。
總結(jié)
以上是生活随笔為你收集整理的鹅厂开源先锋,日均计算量超30万亿,全力打破数据墙的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯技术直播间 | Apache IoT
- 下一篇: 写 Python 到底用什么编辑器好?鹅