表数据比图数据更难处理
目前 AutoML 產(chǎn)品的目標(biāo)數(shù)據(jù)主要有兩類,一類是圖像數(shù)據(jù),一類是表數(shù)據(jù)。
圖像數(shù)據(jù)
深度學(xué)習(xí)取得的最大的成功來自于圖像領(lǐng)域,相比于傳統(tǒng)圖像分析處理做法最核心的點(diǎn)在于“自動(dòng)”學(xué)習(xí)層次化特征,以前的圖像分析都是需要人工設(shè)計(jì)很多種從原始像素提取特征的方法,需要很多專家經(jīng)驗(yàn),深度學(xué)習(xí)很好地解決了這個(gè)問題,使得特征可學(xué)習(xí),將人工特征設(shè)計(jì)轉(zhuǎn)變成了人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),對(duì)于圖像領(lǐng)域的自動(dòng)機(jī)器學(xué)習(xí),很自然的一個(gè)想法就是,是否能進(jìn)一步將人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)里面的“人工”去掉。
谷歌、微軟、第四范式等針對(duì)圖像數(shù)據(jù)的 AutoML 產(chǎn)品的核心點(diǎn)是自動(dòng)化圖像領(lǐng)域的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),他們針對(duì)的主要數(shù)據(jù)是圖像數(shù)據(jù)。圖像數(shù)據(jù)之間的相似性較大,原始輸入都是像素,問題解決方案可遷移性可復(fù)用性也較大,使得 AutoML 在圖像數(shù)據(jù)上相對(duì)更加容易落地。
表數(shù)據(jù)
與圖像數(shù)據(jù)原始輸入都是像素不同的是,表數(shù)據(jù)是抽象數(shù)據(jù),不同的表數(shù)據(jù)之間沒有很強(qiáng)的相似性,不同表數(shù)據(jù)各列的含義千差萬別,另外表數(shù)據(jù)還跟實(shí)際業(yè)務(wù)密切相關(guān),其中有很多時(shí)序性、概念漂移、數(shù)據(jù)包含噪聲等等不同于傳統(tǒng)機(jī)器學(xué)習(xí)的特性需要解決,因此表數(shù)據(jù)問題上 AutoML 落地的難度也會(huì)大很多,僅僅是自動(dòng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)是遠(yuǎn)遠(yuǎn)不夠的。
目前谷歌、微軟在這方面成果相對(duì)較少,MIT 的自動(dòng)特征是在這類問題上一個(gè)很不錯(cuò)的嘗試,他們主要解決的問題是數(shù)據(jù)分布在多個(gè)表中,如何自動(dòng)化地將這多個(gè)表的數(shù)據(jù)轉(zhuǎn)化成最終機(jī)器學(xué)習(xí)所需要的單個(gè)表數(shù)據(jù),但是除了這個(gè)問題,實(shí)際表數(shù)據(jù)的 AutoML 落地還需要解決更多的難題。在國(guó)內(nèi),第四范式在這類問題上是最早有成熟產(chǎn)品落地的,比如模型自帶自動(dòng)化特征的線性分形分類器,自動(dòng)特征組合工具 FeatureGo,自動(dòng)時(shí)序樹模型工具 HE-TreeNet 等等,今年也會(huì)有更多更強(qiáng)大的自動(dòng)化機(jī)器學(xué)習(xí)產(chǎn)品發(fā)布。
除此之外,涂威威還補(bǔ)充道:對(duì)于自然語言處理中的知識(shí)自動(dòng)提取等也需要自動(dòng)化的機(jī)器學(xué)習(xí)技術(shù),這是目前很多 AutoML 產(chǎn)品所不涉及的。
總結(jié)
以上是生活随笔為你收集整理的表数据比图数据更难处理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AutoML简要概述
- 下一篇: NNI工具介绍