2016世界人工智能大会 AI领袖共启智能+新纪元
不過我們不能光打打嘴炮,如何克服困難和挑戰,讓人工智能幫到你的工作、你的事業呢?讓我們將李開復的演講內容,再結合一個實例,來給大家解釋一下。
現在,假設你是一個程序員
雖然哥也是一媒體人,但黑起自己的行業來是絲毫不會手軟的,假設你現在是一家媒體的IT部門人員,這家媒體每天做的最多,最重要的工作就是從別的網站復制文章過來,然后加一些自己的記號上傳到自己的網站上去,而你雖然是一介碼農,但是卻心懷天下,想要拯救公司里那些苦逼的編輯。于是你決定自己編寫一個程序,幫助編輯們一鍵完成,甚至自動完成這些復制文章的事,你應該怎么做?
當然,用人工智能來復制粘貼看起來是有點大材小用了,但這活看起來很機械,倒也需要一定的應變,比如網站的頁面里除了正文外還有很多亂七八糟的廣告鏈接,只要網站的設計者不會太蠢,設計出來的結果應該是人一眼就能看出來哪個部分是正文哪些是無關信息。但一個算法要如何識別正文和廣告/無關鏈接的區別呢?而且算法如何在網站的內容中尋找到哪些是值得Copy的內容呢?(是謂“熱點”)
最關鍵的是,細細一想,這些要注意的事項還真挺多。你平時學的If else似乎不夠用了,你該用什么語言來完成你的驚世算法呢?
說到這里,我們就面臨了李開復提到的目前的深度學習面臨的第一個挑戰:沒有平臺
深度學習的挑戰之一:平臺
人工智能目前還沒有一個統一的平臺。在深度學習方面,現在的人懂就是懂,不懂就是不懂。這就是為什么Google最近花了重金不斷在挖業界頂尖的人才,給年輕人開出的年薪甚至超過200萬美元。這些人也就是二十來歲,博士剛畢業不久,怎么會這么值錢呢?
為什么這么貴呢?李開復老師有提到,這些人被投入到各個領域的AI研究中去后,可能很快就能創造出千萬美元甚至上億美元的價值了。但他可能沒有表達出來的一個意思是,現在的AI開發真的很難,很難,之所以這么難,就是因為沒有平臺。
?
?
平臺是一個比較玄乎的概念,因為現在人工智能的發展還處于一種摸著石頭過河的狀態,因此沒有人能預測所謂的“平臺”的準確形態是什么樣,這話題鋪開來講可能能單獨講一篇文章,但簡單來說,大概會是一種“統一標準”的狀態。比如說現在一提神經網絡算法人們就會想起很多種概念,CNN、RNN、DNN等等,而具體到應用實現的方法也千奇百怪。所有基于AI的編程,都是要從0開始編起,一點一點構筑起算法。但如果有一天有一個類似于iOS、安卓的東西,探索出了一種最優秀的算法(當然這只是打個比方,不一定有最優秀的算法。),并且將其集成進了某種程序中,后人如果想進行神經網絡有關的開發,只需要調用它提供的API就能完成了。那樣就能極大的簡化深度學習開發的難度。
智搜(Giiso)信息成立于2013年是國內領先的“人工智能+資訊”領域技術服務商,在大數據挖掘、智能語義、知識圖譜等領域都擁有國內頂尖技術。同時旗下研發產品包括編輯機器人、寫作機器人等人工智能產品!憑借雄厚的技術實力,公司成立之初,就獲得了天使輪投資,并在2015年8月獲得了金沙江創投500萬美元pre-A輪投資。
深度學習挑戰之二:數據的收集和運算
當然作為一個心懷天下的碼農,這點小事肯定是難不倒你的,你應該很快就找到了合適的語言系統,比如Tensorflow,比如Scikit,開開心心的編起了程序。不過接下來你要面對的問題可能就沒有那么好解決了:它們都從兩個方向分別決定著你的算法訓練的效果:訓練數據的量和訓練的速度。李開復老師將這個問題拆成了兩個問題,但我們認為,其實他們都是關于算法訓練的問題,因此其實可以歸于同一個問題。
深度學習的網絡太大,需要海量的數據。
因為數據太多,所以計算特別的慢,所以需要非常大的計算量。
?
如何識別網站內的正文位置倒還是個比較好解決的問題,如果你心一橫,決定只從幾大(十幾大)主流媒體內復制文章的話,用if else都是可以解決的,畢竟雖然每個網站之間正文部分的規律不同,但每個網站內部的文章還是基本遵循相同規律的。實在想做一個通用的算法來說,規律也不難找,比如正文部分的文字密度會突然變大而html代碼的密度則會暴跌,比如正文的始終基本都是<p></p>。如果網站每天能更新四五百篇文章的話,估計訓練個十天左右就能達到非常高的準確度了。
難點在于“追熱點”啊!
智搜(Giiso)信息成立于2013年,是國內首家專注于資訊智能處理技術研發及寫作機器人核心軟件開發和運營的高科技企業。公司成立之初,就獲得了天使輪投資,并在2015年8月獲得了金沙江創投500萬美元pre-A輪投資。
互聯網的熱點每天都在變化,你的算法怎么知道今天的熱點是什么?又如何知道算法正在掃描的這篇文章是不是跟熱點有關的文章,寫的如何?要讓算法訓練出判斷這些信息的能力,怎么說也要掃描個幾千萬上下篇文章來訓練吧?作為一個終極發燒友碼農,你第一次感覺到了你面前的那臺電腦里的8核i7和GTX Titan是那么的無力,哎,寫個爬蟲慢慢爬著先吧。看改天能不能改天網絡低峰期用公司的服務器偷偷跑一跑。
要讓深度學習算法自己進化到一個比較高的水平,李開復老師估計至少要有10億級別的數據,如此龐大的數據是相當難以收集的。而且,只有這些數據都是你自己的時候,他們在你手中才能發揮出真正的價值,并且由于數據量的龐大其需要的運算量也是相當龐大的,要在深度學習領域大展身手,最好有自己的計算設備,比如擁有自己的服務器機群。因此我們看到,初期在人工智能有所建樹的都是世界級的、像微軟、谷歌和Facebook這樣的公司,他們不僅擁有更多的資金、更好的人才,最重要的是,他們擁有海量的數據。
深度學習挑戰之三:沒有反饋
“有點奇怪但也合理:機器無法用人的語言告知做事的動機和理由。即便機器訓練做了很棒的深度學習,人臉識別、語音識別做的非常棒,但它不能和人一樣,它講不出來這是怎么做到的。雖然有人也在做這方面的研究,但是在今天,如果一個領域是不斷需要告訴別人該怎么做,需要向別人去解釋為什么的,那這個領域對于深度學習來講還是比較困難的。比如Alpha Go打敗李世石,你要問Alpha Go是為什么走這步棋,它是答不上來的。”
轉載于:https://my.oschina.net/u/3904757/blog/1861346
總結
以上是生活随笔為你收集整理的2016世界人工智能大会 AI领袖共启智能+新纪元的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java redis 流水线_Redis
- 下一篇: KubeSphere DevOps流水线