AutoML之图数据与表数据
當前AutoML平臺離“萬能”還有一段距離
AutoML 成為熱門技術方向,同時也面臨著一些難題,這些難題有很大一方面來自于?不同數據之間解決問題手段的可遷移性 / 可復制性,解決不同問題的手段相似性或者可遷移性 / 可復制性越高,自動化越容易,反之越難。
目前 AutoML 產品的目標數據主要有兩類,一類是圖像數據,一類是表數據。
圖像數據
深度學習取得的最大的成功來自于圖像領域,相比于傳統圖像分析處理做法最核心的點在于“自動”學習層次化特征,以前的圖像分析都是需要人工設計很多種從原始像素提取特征的方法,需要很多專家經驗,深度學習很好地解決了這個問題,使得特征可學習,將人工特征設計轉變成了人工神經網絡結構設計,對于圖像領域的自動機器學習,很自然的一個想法就是,是否能進一步將人工神經網絡結構設計里面的“人工”去掉。
谷歌、微軟、第四范式等針對圖像數據的 AutoML 產品的核心點是自動化圖像領域的神經網絡結構設計,他們針對的主要數據是圖像數據。圖像數據之間的相似性較大,原始輸入都是像素,問題解決方案可遷移性可復用性也較大,使得 AutoML 在圖像數據上相對更加容易落地。
表數據
與圖像數據原始輸入都是像素不同的是,表數據是抽象數據,不同的表數據之間沒有很強的相似性,不同表數據各列的含義千差萬別,另外表數據還跟實際業務密切相關,其中有很多時序性、概念漂移、數據包含噪聲等等不同于傳統機器學習的特性需要解決,因此表數據問題上 AutoML 落地的難度也會大很多,僅僅是自動神經網絡結構設計是遠遠不夠的。
目前谷歌、微軟在這方面成果相對較少,MIT 的自動特征是在這類問題上一個很不錯的嘗試,他們主要解決的問題是數據分布在多個表中,如何自動化地將這多個表的數據轉化成最終機器學習所需要的單個表數據,但是除了這個問題,實際表數據的 AutoML 落地還需要解決更多的難題。在國內,第四范式在這類問題上是最早有成熟產品落地的,比如模型自帶自動化特征的線性分形分類器,自動特征組合工具 FeatureGo,自動時序樹模型工具 HE-TreeNet 等等,今年也會有更多更強大的自動化機器學習產品發布。
除此之外,涂威威還補充道:對于自然語言處理中的知識自動提取等也需要自動化的機器學習技術,這是目前很多 AutoML 產品所不涉及的。
總結
以上是生活随笔為你收集整理的AutoML之图数据与表数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: fasttext的异步随机梯度下降导致结
- 下一篇: batch size 越大,学习率也要越