OpenAI及DeepMind两团队令未来的AI机器更安全
OpenAI和DeepMind的研究人員使用的新算法從人類反饋中學習,他們希望這樣做能使人工智能更安全。
兩家公司均為強化學習的專家,強化學習是機器學習的一個領域,其基本思想是,如果代理在特定的環境里采取正確的行動完成了任務就給予獎勵。該目標是通過一種算法來指定的,代理經過程序后就會追逐獎勵,例如游戲中的獲勝點。
強化學習在訓練機器如何玩如Doom或Pong等游戲或通過模擬駕駛自主駕駛汽車等案例中取得了成功。強化學習是探索代理行為的一個有效的方法,但如果硬編碼算法錯了或產生不良影響的話,這種方法可能也有危險。
arXiv上發表的一篇論文描述了一種有助于防止此類問題的新方法。首先,代理在其環境中執行隨機動作。預測的獎勵則是基于人類的判斷,而且獎勵被反饋到強化學習算法中,以改變代理的行為。
?
系統在人類指導下制定最佳行動及學習目標
研究人員將這種算法用于訓練一個彎曲的燈柱往后仰。代理的兩個視頻然后再交給人觀看,觀看者選擇哪一個的后仰動作更佳一些。
經過一段時間后,代理就逐漸學習了如何根據獎勵函數最有效地解釋人類的判斷來學習目標。強化學習算法用于指導代理的行為,并可以持續在人類的批準下進行改進。
網上可找到相關的視頻。(https://www.youtube.com/watch?v=oC7Cw3fu3gU)
人類評估者花掉的時間不足一個小時。但要完成做飯或發送電子郵件等更復雜的任務就會需要更多的人類反饋,從財務的角度來看則是昂貴的。
文章的作者之一達里奧·阿莫德(Dario Amodei)是OpenAI的一名研究人員,他表示,未來研究的重點會放在減少監督方面。
他告訴記者,“泛泛而言,名為半監督學習的技術在這一塊可能有幫助。另一種可能性是提供更信息密集的反饋形式,如語言,或是讓人類在屏幕上具體指出表示良好行為的部分。更多的信息密集反饋可能會讓人類在更短的時間內更多地與算法進行溝通。“
上述研究人員在其他模擬機器人任務和Atari游戲里測試了他們的算法,結果顯示機器有時可以實現超人式的性能。但這在很大程度上取決于人類評估者的判斷。
OpenAI在一篇博文里表示,“我們算法的性能只能和人類評估者對于什么是正確行為的直覺一樣好,所以,如果人類對一個任務沒有很好的把握,那他們可能提供不了太多有用的反饋。”
阿莫德表示,目前的結果僅局限于非常簡單的環境。但這種方法大有可能對有些很難學習的任務有用,這些任務的獎勵功能很難量化,例如駕駛、組織事件、寫作或技術支持的提供。
原文發布時間為:2017年6月14日? 本文作者:作者:楊昀煦 本文來自云棲社區合作伙伴至頂網,了解相關信息可以關注至頂網。
總結
以上是生活随笔為你收集整理的OpenAI及DeepMind两团队令未来的AI机器更安全的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JSP学习笔记(一):JSP语法和指令
- 下一篇: 全民大数据时代已来 阿里数加平台详解