腾讯云大数据产品中心总经理刘煜宏:企业全域数据体系建设(附完整PPT)
背景:5月23-24日,以“煥啟”為主題的騰訊“云+未來”峰會在廣州召開,廣東省各級政府機構領導、海內外業內學術專家、行業大咖及技術大牛等在現場共議云計算與數字化產業創新發展。騰訊云大數據產品中心總經理劉煜宏在24日下午的AI大數據專場論壇,介紹了在大數據時代背景下,騰訊是如何打造全域數據體系的。
今天我們的論壇名字叫AI大數據,我們前面的嘉賓講的都是AI,我主要講講大數據。AI確實很厲害,能夠幫助各行各業解決不同場景的很多問題,如果說AI是個武器,那大數據就是彈藥,如果沒有了彈藥,那么武器也很難發揮該有的功效。
我今天的主題叫《全域數據體系建設》,什么叫全域數據體系?大家理解可能是不一樣的。有一橫一縱的兩個理解,一個是所有的行業、所有領域的整合,比如說舉個例子,像旅游大數據,它可能包含了文化、交通、餐飲、住宿、保險等行業,全部整合在一起,這是全域大數據的概念。也有一個縱向的概念,比如我們從數據的生命周期來看,數據從我們業務的在線系統里面產生,然后流轉到我們的分析系統,比如大數據平臺,或者數字倉庫里面;然后再到應用平臺比如AI應用平臺里面做各種各樣的應用,最后回到我們的在線系統,形成一個循環,這也是一個全域數據體系。
我們怎么建設全域數據體系的呢?大家都知道,騰訊其實有很多種業務的類型,有支付、社交、游戲等等。這些數據怎么樣能整合到一起呢?我們從十年前開始做大數據,當時我們就想著我們要把騰訊所有業務數據整合在一起。
? ?
當然這不是一個很容易的事情,非常困難,數據怎么樣用,怎么采集進來,進來以后怎么存,存了以后怎么管理,管理之后怎么用。大家都知道,騰訊的數據很多,數據形態是不一樣的。比如有些數據比較齊全,有些業務連日志都不寫。我們要拿數據,就要動業務的在線系統。大家知道騰訊代理很多韓國或者其他地方的游戲,當我們發現數據不全的時候,我們想改,業務說找合作方,找韓國人等一兩年,甚至可能開發團隊都解散了,經常會有這種問題。數據質量是參差不齊的,這是我們遇到的巨大的困難。
還有一個困難,我們其實面臨著人才的短缺。我們原來是做業務系統過來做,大家都不懂大數據。我相信很多企業面臨著和我們一樣原來遇到過的問題。
現在回過頭來看,我們基本上都解決了這些問題。從技術上講,騰訊所有業務的數據都在這里匯聚,從技術上,這些數據是互通的。但是從業務邏輯上又是隔離的,是很安全的,但只要有授權,隨時可以訪問得到。大家可以看一下,這是目前為止整個大數據平臺數據量。我們平臺每天收到有13萬億條數據,平臺上各種實時計算超過3.5萬億次/天,我們的資源調度系統為了支撐離線任務每天要啟動1.5億次的容器。我們數據量超過400PB。為了支撐這么大的體量,我們用了3萬多臺機器支撐。我們的夢想算是已經實現了,可見要實現這個夢想難度還是很大的,花了我們將近10年,消耗了不少青春,投了很多人,花了不少硬件資源去做。
接下來我想從數據生命周期的角度分享一下我們剛剛提到的全域數據:在線系統、分析系統、數據應用三個環節的經驗。大家知道一般業務系統的在線系統跟我們的分析系統數據是隔離的,在線系統是一套數據庫,為了分析又要建另外一套數據倉庫。現在仍然很多業務是這樣做的。我們前兩年開始嘗試,希望把在線系統和分析系統做一下融合,我們研發了一個系統叫TBase,這是一個New SQL HTAP分布式數據庫,希望把在線事務處理和離線分析系統的數據庫統一。現在騰訊內部包括微信支付也在用這套數據庫。另外TBase也已經發布,通過騰訊云開放出來給大家用。這個數據庫支持OLTP和OLAP的融合,在TP上每分鐘能達到300萬次的事務處理,AP的分析性能也比業界標桿高5倍左右。在線和分析系統的融合應該算是目前數據庫發展的趨勢之一,也是我們的經驗。
第二個環節,我們的大數據平臺主要為了支撐分析系統,這里面最困難、最突出的就是剛才提到的數據治理的問題。我們那么多業務,很多類型,業務區別很大,每一個業務對數據的理解和使用都是不一樣的。數據是一種資產,這種資產非常重要,所以我們一定要保障好數據資產在我們平臺里面的安全和質量,不能錯,不能丟。數據從哪里來?流向哪里?數據和數據之間的關系是什么樣子的,血緣和關系我們都要搞清楚。
騰訊內部業務是很龐大的,也很獨立的,我們是怎么把以前數據不規范比較亂做到現在比較有序、有效治理的狀態,我有三點經驗可以分享。第一,貼身服務。我們花了很長時間梳理數據,花了差不多三年時間,幫每個事業群做系統遷移,我們派人坐到他們身邊,一個個業務幫他們啃骨頭,幫他們梳理,遷移報表。第二,我們建立一套實時數據采集平臺,我們從數據的源頭開始采集數據,這樣就能控制數據質量,跨過很多中間環節,我們自己制定各種數據的標準。第三,我們建立一套平臺給他們用,我們提供很強大的計算資源。而這里我們匯聚了很多其他不同業務的數據。一個業務想接入我們的平臺,想享受這種數據可以互通的紅利,享受著我們這么龐大的資源支撐。他就要接入我們,我們制定規范,讓他必須遵循規范、遵循標準。這是我們做數據治理的三點體會。
分析系統后面就是我們的應用,騰訊那么多業務,每一個企業都想做個性化的應用,想做個性化的推薦,包括內容、廣告的推薦,游戲里面還有個性化的道具推薦。每一個業務都想自己做,那我們做了里面最基本的東西,我們把所有的用戶相關的數據匯到一起,我們從底層用戶畫像做起,我們建立一套以用戶為中心的用戶畫像,支撐上層的業務發展。底層基礎要打牢,上面的應用才能支持得好。這個用戶畫像現在支撐著騰訊所有效果廣告,帶來精準效果提升每年超過10%。不要小看10%,這是大概每年都有幾十億的收入,還是很可觀的。一定要把底層數據基礎打牢,才能更好做上面的應用。我們要變成一種數據服務,現在這個服務也是通過騰訊云開放出去,叫數字營銷,大家都可以嘗試一下使用(他二哥注:大家可以點擊公眾號菜單的“技術平臺”-“應用”,找到這些數據服務)。
回顧大數據平臺發展,我們是從離線的計算到實時計算,再到機器學習這三個階段,從數據層面來講,我們都是一個個分散的系統,這一個做存儲,另外一個系統做cache,又另外一個做多維查詢分析,都是分散的、孤立的,每個數據不互通。后來我們從數據采集、到存儲到可視化,把所有數據整合在一起,變成套件的東西,然后又把這個套件變成一個平臺,可以讓大家接入,變成一個服務化的東西,大家可以調用我們的服務。在應用方面,我們也切合AI的浪潮,我們在上面做了機器學習的平臺,向著智能化應用的發展。原來我們是通用的數據平臺或者機器學習的平臺,但現在和行業聯合得越來越緊密,我們根據垂直行業不同場景化需求,給他們出各種解決方案。
整個發展的主線路就是從零散到整合,從通用平臺到貼合場景化。
現在我們把這種平臺也開放出來,我們把數據采集、分析挖掘到可視化,整個鏈條所有平臺我們通過騰訊云開放出來了,我們希望能夠加速大家在數據處理方面的效率,能夠幫助大家在全域體系建設方面能夠使用它。
我們在2016年7月份也是云+未來峰會上我們發布一個大數據產品,就叫大數據套件——TBDS。剛才提到以前我們很缺乏人才,很多企業也面臨這樣的問題,想做大數據,但是沒有大數據人才。這個產品就是可以讓你們沒有大數據人才也能用上大數據平臺,這是這個產品的初衷。最近我們更新了很多,把最重要的做數據治理的功能做了很多的完善,也是今年更新到我們的版本里面。我們在上面做了很多服務,做了很多工具,提升大家使用的效率,值得一提的是,我們不只支持騰訊內部的版本,還兼容業界比較流行CDH和HDP的版本。
除了平臺開放出來,在騰訊云云端上,如果大家留意會發現很多數據服務,不只是平臺,還有數據的服務。比如移動分析服務,會分析很多APP的行為,還有反欺詐的服務,還有一些其他的數字營銷的服務,LBS地理位置的服務。這是一種數據服務,可以給到用戶使用的服務。云端的用戶可以用自己的數據和我們數據服務做一個整合,來建設自己的全域的數據體系,這樣不只是你自己的數據,還可以和別的數據做融合、跨界。
平臺開放了,我們的數據服務也開放了,在云端,其實不只是平臺和服務,還有生態。我們很多行業比如能源、交通、教育等等,這里匯聚了所有行業的用戶以及為這個行業服務的開發者。這里面真的是一個繁榮生態社會,每一個客戶在這里都能找到跨界的可能。比如能源,可以和交通、氣象服務結合起來,更好服務于客戶。就像騰訊內部一樣,我們建了一個大數據平臺,讓騰訊內部所有產品之間結合,比如游戲和視頻產品結合起來,這樣能夠產生更多的創新。在我們的云端,大家也是可以這樣,找到跨界的機會,能夠產生更多創新的可能,挖掘更多數據價值。
最后這是一個例子,昨天上午的圓桌論壇上,中國銀行的張行長也提到,中國銀行利用騰訊的一些數據分析的能力,利用我們的平臺能力,結合了一些公共的網絡空間的數據服務,結合了一些公共的輿情的數據服務,去升級他們的風控系統,在他們的風控系統上做各種各樣的創新,加固他們的風控平臺。
這就是我們利用平臺利用我們的數據服務結合傳統很多行業的場景,產生的一個化學的反應,這樣的案例會越來越多。我們也希望通過我們的平臺能力,通過我們的數據服務再結合各位手上很多業務的場景,能夠產生不一樣的效果,能夠帶來很多創新。我們也希望能夠幫助大家發現更多的數據的價值,這也是我們做大數據的夢想。
這就是我的分享的內容,謝謝大家。
后臺回復“數據體系”,可獲得本次演講完整PPT!
騰訊前沿技術 | 產品 | 行業信息交流發布平臺
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
以上是生活随笔為你收集整理的腾讯云大数据产品中心总经理刘煜宏:企业全域数据体系建设(附完整PPT)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一篇文章搞懂腾讯云AI平台的人工智能ID
- 下一篇: 腾讯企业IT部安全运营中心总监蔡晨:十年