一站式机器学习平台TI-ONE是什么?——云+未来峰会开发者专场回顾
歡迎大家前往騰訊云+社區(qū),獲取更多騰訊海量技術(shù)實(shí)踐干貨哦~
背景:5月23-24日,以“煥啟”為主題的騰訊“云+未來(lái)”峰會(huì)在廣州召開,廣東省各級(jí)政府機(jī)構(gòu)領(lǐng)導(dǎo)、海內(nèi)外業(yè)內(nèi)學(xué)術(shù)專家、行業(yè)大咖及技術(shù)大牛等在現(xiàn)場(chǎng)共議云計(jì)算與數(shù)字化產(chǎn)業(yè)創(chuàng)新發(fā)展。
騰訊云AI平臺(tái)技術(shù)負(fù)責(zé)人王才華博士在騰訊“云+未來(lái)”峰會(huì)的「開發(fā)者專場(chǎng)」做了主題為“智能鈦?一站式機(jī)器學(xué)習(xí) TI-ONE:騰訊云上的機(jī)器(深度)學(xué)習(xí)IDE”的技術(shù)內(nèi)容分享。
最近大家有沒有看漫威的《復(fù)仇者聯(lián)盟3》?其中鋼鐵俠的戰(zhàn)甲就是用金屬鈦制造的,鈦具有質(zhì)量輕,高強(qiáng)度的特點(diǎn),而TI-ONE是人工智能平臺(tái),因此我們用了科技感十足的名字“智能鈦”來(lái)形容它。
首先說(shuō)說(shuō)為什么需要TI-ONE?
人工智能的重要性不需要我再?gòu)?qiáng)調(diào),Andrew Ng 在Spark Summit 2017上提出《AI: The new Electricity》. 各大公司也相爭(zhēng)提出自己的機(jī)器學(xué)習(xí)平臺(tái),比如說(shuō)微軟的CNTK,Google的Tensorflow等等。但是回答為什么需要TI-ONE這個(gè)問題,還要從云計(jì)算的特點(diǎn)和機(jī)器學(xué)習(xí)的生命周期出發(fā)。在云上,我們偏向云服務(wù)化,基礎(chǔ)設(shè)施服務(wù)化,平臺(tái)服務(wù)化,算法服務(wù)化,機(jī)器學(xué)習(xí)算法也不例外。
但是機(jī)器學(xué)算法有一個(gè)漫長(zhǎng)的生命周期,從數(shù)據(jù)獲取到數(shù)據(jù)預(yù)處理再到選擇一個(gè)框架并編寫算法,然后訓(xùn)練得到一個(gè)模型,最后用這個(gè)模型進(jìn)行預(yù)測(cè)。在云上我們還要對(duì)模型進(jìn)行服務(wù)化。如此漫長(zhǎng)的過程,所以我們需要加速機(jī)器學(xué)習(xí)的生命周期,加速模型的服務(wù)化,這就是我們需要TI-ONE的原因。
具體而言,TI-ONE提供了如下功能:
首先整合了數(shù)據(jù)預(yù)處理平臺(tái),提高數(shù)據(jù)預(yù)處理效率。
支持主流機(jī)器學(xué)習(xí)框架,內(nèi)置常用算法,以拖拽的方式就能完成算法開發(fā)。
支持自動(dòng)調(diào)參,支持多個(gè)層面的協(xié)作,支持了一鍵模型部署和服務(wù)化,還有在線推理。
用開發(fā)者的語(yǔ)言來(lái)說(shuō), TI-ONE就是騰訊云上的機(jī)器學(xué)習(xí)IDE。
什么是TI-ONE?
我將從架構(gòu),工作流,調(diào)參,協(xié)作,部署等這幾個(gè)方面進(jìn)行分享。
TI-ONE是一個(gè)層次架構(gòu),最下層是COS存儲(chǔ)層,存儲(chǔ)層之上是GaiaStack資源調(diào)度層,GaiaStack賦予TI One很多商業(yè)特性,后面我會(huì)展開分享。調(diào)度層之上是架構(gòu)層,我們整合了Tensorflow,PyTorch,XGBoost,Angel和Spark等,其中Angel是騰訊自研的,Spark是騰訊增強(qiáng)的。算法方面,我們集成了大量的常用算法,既有CNN、RNN、DBN等深度學(xué)習(xí)算法,也有的GBDT、FFM等傳統(tǒng)機(jī)器學(xué)習(xí)算法。用戶可以用這些算法訓(xùn)練自己的模型,支持業(yè)務(wù),比如圖象識(shí)別、語(yǔ)音識(shí)別、精準(zhǔn)推薦和實(shí)時(shí)風(fēng)控等等。
TI-ONE為用戶提供了一個(gè)圖形化開發(fā)界面,以拖拽方式就能開發(fā)一個(gè)機(jī)器學(xué)習(xí)算法,這里我給一個(gè)例子,
- 從COS層或本地文件系統(tǒng)中獲得數(shù)據(jù)
- 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理
- 對(duì)數(shù)據(jù)進(jìn)行切分,這里需要指出的是,這里是將數(shù)據(jù)切分成訓(xùn)練集和驗(yàn)證集,而不是測(cè)試集
- 然后用拖拽的方式選擇一種算法,以邏揖回歸為例
- 設(shè)置算法需要的參數(shù)
- 訓(xùn)練得到模型
如果要驗(yàn)證這個(gè)算法也很簡(jiǎn)單,只要:
- 從存儲(chǔ)層中獲得數(shù)據(jù)
- 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理
- 輸入到模型
- 算法評(píng)估
運(yùn)行完成后會(huì)給出混淆矩陣和AUC值。
調(diào)參是機(jī)器學(xué)習(xí)的重要環(huán)節(jié),而且非常具有技巧性,TI-ONE提供了自動(dòng)化的調(diào)參工具,特點(diǎn)是通過參數(shù)組合產(chǎn)生多個(gè)實(shí)例,然后并行運(yùn)行這些實(shí)例,從這些實(shí)例中選出效果最好的一個(gè)。
舉個(gè)例子,假設(shè)你要訓(xùn)練一個(gè)隨機(jī)森林,你要決定森林中樹的棵數(shù)和訓(xùn)練每棵樹所需要的特征數(shù),只要給定一個(gè)參數(shù)組合,然后交給TI-ONE,TI-ONE可以幫你選擇最好的組合。在另一些情況下,我們可能需要對(duì)一些正則化超參調(diào)優(yōu),我們只要給定一個(gè)范圍,然后交給TI-ONE,TI-ONE就可以幫助我們選擇最優(yōu)的參數(shù)。
協(xié)作對(duì)于機(jī)器學(xué)習(xí)也很重要,TI-ONE提供了多個(gè)層面的協(xié)作。
第一是模型層面的分享,訓(xùn)練好的模型可以分享給你的同事。比如你們倆同時(shí)對(duì)同一個(gè)業(yè)務(wù)開發(fā)算法,想比較誰(shuí)的精度更高,就可以互相分享這個(gè)模型。
第二是工作流層面的分享,工作流就是機(jī)器學(xué)習(xí)生命周期,分享工作流,就是分享整個(gè)機(jī)器學(xué)習(xí)生命周期。假設(shè)你前面做了一個(gè)皮膚推薦的任務(wù),后來(lái)要做裝備推薦的任務(wù),基本上只要小改動(dòng)就可以了。
第三是服務(wù)層面的共享,模型部署好后還可以共享,你可以把模型分享給后臺(tái)人員,讓他(她)幫你定位問題。
?
部署和服務(wù)是云上機(jī)器學(xué)習(xí)和傳統(tǒng)學(xué)習(xí)的不同之處。TI-ONE提供了一鍵式部署工具。我們可以將訓(xùn)練好的模型部署成Application, 然后裝載成多個(gè)實(shí)例,一個(gè)實(shí)例中還允許有不同版本。第三方的用戶和模型的開發(fā)者就可以用REST API去調(diào)用,非常方便。
前面我們講了TI-ONE的特點(diǎn),開發(fā)者肯定想知道它背后的設(shè)計(jì)之道。我喜歡用冰山理論來(lái)解釋事物背后的原理,前面看到的不管是工作流,還是調(diào)參,協(xié)作和部署工具,這些只是冰山一角,水下面是什么呢?
我們認(rèn)為一部分原因是整合,我們整合了COS存儲(chǔ),整合了GaiaStack調(diào)度,整合了常用的機(jī)器學(xué)習(xí)框架和算法,但是僅僅整合還是不夠,我們還需要自主研究構(gòu)建差異化的競(jìng)爭(zhēng)力,這個(gè)就是TI-ONE的特別之處。
第一個(gè)特別之處是Angel,Angel騰訊自研的機(jī)器學(xué)習(xí)的框架,它克服了Spark將模型放在單個(gè)節(jié)點(diǎn)的不足,通過對(duì)底層數(shù)學(xué)庫(kù)的優(yōu)化,它可以支持萬(wàn)億級(jí)參數(shù)的模型,放眼業(yè)界,能支持如此大模型的計(jì)算框架也是鳳毛菱角。
算法方面,我們實(shí)現(xiàn)了常用的傳統(tǒng)機(jī)器學(xué)習(xí)算法,比如邏輯回歸,SVM等等,其中還有一些是我們?cè)瓌?chuàng)的, 如LAD* 就是我們發(fā)表在VLDB上的成果。
性能方面,我們比較了Angel和Spark, XGBoost等平臺(tái),發(fā)現(xiàn)Angel性能表現(xiàn)非常強(qiáng)悍。有些算法的性能是Spark的20+倍。
第二個(gè)特別之處是圖計(jì)算算法,我們知道圖計(jì)算領(lǐng)域有三個(gè)主要玩家,即Pregel,GraphLab,和GraphX,而Pregel是谷歌閉源,GraphLab是商業(yè)軟件,只有GraphX是開源軟件。但是GraphX更新慢,算法少,鑒于這種情況,我們就基于GraphX增加了很多圖計(jì)算算法,有節(jié)點(diǎn)評(píng)價(jià)算法,社區(qū)發(fā)現(xiàn)算法,統(tǒng)計(jì)特征算法,經(jīng)過細(xì)致的優(yōu)化,這些算法都支持了千億級(jí)規(guī)模的關(guān)系鏈。
第三個(gè)特別之處是支持用戶自定義算法,前面提到我們集成了非常多的算法,有深度學(xué)習(xí)算法,也有傳統(tǒng)學(xué)習(xí)機(jī)器算法,有回歸算法,有分類算法,推薦算法等等,但是對(duì)于一些高級(jí)用戶來(lái)說(shuō)還是不夠,所以我們?cè)试S用戶自定義算法到TI-ONE執(zhí)行,雖然是一個(gè)小功能,但是給用戶帶來(lái)很大的靈活性。
前面我們談到了TI-ONE的功能和特別之處,現(xiàn)在要談一談商業(yè)用戶比較關(guān)心的性質(zhì),嚴(yán)格來(lái)講這個(gè)性質(zhì)不是TI-ONE本身的,而是GaiaStack賦予的。
第一個(gè)是專用集群,當(dāng)用戶數(shù)據(jù)量較大時(shí),我們可以提供多個(gè)完整集群讓他使用,當(dāng)用戶的數(shù)據(jù)比較小的時(shí)候,可以多個(gè)用戶共享集群,我們做了很好的多租戶,用戶的資源和數(shù)據(jù)隔離。支持熱升級(jí),業(yè)務(wù)不中斷,用戶無(wú)感知。支持主備自動(dòng)切換的高可用,當(dāng)服務(wù)量增大時(shí),會(huì)自動(dòng)加載新的實(shí)例,并自動(dòng)負(fù)載均衡。
最后我們看看用戶,我們公司內(nèi)外都有很多的用戶,在公司內(nèi)比如騰訊游戲、微信、應(yīng)用寶、QQ音樂等等都是我們的用戶。
最后發(fā)個(gè)福利,大家可以通過掃碼來(lái)獲得試用或者文檔。
更多有關(guān)TI-ONE詳情,請(qǐng)點(diǎn)擊下方獲取。
TIOne騰訊云上的深度學(xué)習(xí)平臺(tái).pdf
?
問答
是否有.NET機(jī)器學(xué)習(xí)庫(kù),例如,可以為一個(gè)問題建議標(biāo)記?
相關(guān)閱讀
安利10個(gè)有趣實(shí)用的人工智能開源項(xiàng)目
區(qū)塊鏈、人工智能和物聯(lián)網(wǎng)之間是什么關(guān)系?
圖像分析那些事︱AI來(lái)了
?
此文已由作者授權(quán)騰訊云+社區(qū)發(fā)布,原文鏈接:https://cloud.tencent.com/developer/article/1136172?fromSource=waitui
轉(zhuǎn)載于:https://www.cnblogs.com/qcloud1001/p/9109423.html
總結(jié)
以上是生活随笔為你收集整理的一站式机器学习平台TI-ONE是什么?——云+未来峰会开发者专场回顾的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: nginx--之静态服务器
- 下一篇: Java基础23-集合类2(Set接口,