大云網(wǎng) 用電服務電力法律正文

AI界的七大未解之謎：OpenAI丟出一組AI研究課題

2018-02-02 16:14:04 量子位　點擊量：評論 (0)

今天，OpenAI在官方博客上丟出了7個研究過程中發(fā)現(xiàn)的未解決問題。OpenAI希望這些問題能夠成為新手入坑AI的一種有趣而有意義的方式，也幫助

今天，OpenAI在官方博客上丟出了7個研究過程中發(fā)現(xiàn)的未解決問題。

OpenAI希望這些問題能夠成為新手入坑AI的一種有趣而有意義的方式，也幫助從業(yè)者提升技能。

OpenAI版AI界七大未解之謎，現(xiàn)在正式揭曉——

AI界的七大未解之謎：OpenAI丟出一組AI研究課題

1. Slitherin’

難度指數(shù)：☆☆

實現(xiàn)并解決貪吃蛇的多玩家版克隆作為Gym環(huán)境。

環(huán)境：場地很大，里面有多條蛇，蛇通過吃隨機出現(xiàn)的水果生長，一條蛇在與另一條蛇、自己或墻壁相撞時即死亡，當所有的蛇都死了，游戲結束。

智能體：使用自己選擇的自我對弈的RL算法解決環(huán)境問題。你需要嘗試各種方法克服自我對弈的不穩(wěn)定性。

檢查學習行為：智能體是否學會了適時捕捉食物并避開其他蛇類？是否學會了攻擊、陷害、或者聯(lián)合起來對付競爭對手？

2. 分布式強化學習中的參數(shù)平均

難度指數(shù)：☆☆☆

這指的是探究參數(shù)平均方案對RL算法中樣本復雜度和通信量影響。一種簡單的解決方法是平均每個更新的每個worker的梯度，但也可以通過獨立地更新worker、減少平均參數(shù)節(jié)省通信帶寬。

這樣做還有一個好處：在任何給定的時間內(nèi)，我們都有不同參數(shù)的智能體，可能出現(xiàn)更好的探測行為。另一種可能是使用EASGD這樣的算法，它可以在每次更新時將參數(shù)部分結合在一起。

3. 通過生成模型完成的不同游戲中的遷移學習

難度指數(shù)：☆☆☆

這個流程如下：

訓練11個Atari游戲的策略。從每個游戲的策略中，生成1萬個軌跡，每個軌跡包含1000步行動。

將一個生成模型（如論文Attention Is All You Need提出的Transformer）與10個游戲產(chǎn)生的軌跡相匹配。

然后，在第11場比賽中微調(diào)上述模型。

你的目標是量化10場比賽預訓練時的好處。這個模型需要什么程度的訓練才能發(fā)揮作用？當?shù)?1個游戲的數(shù)據(jù)量減少10x時，效果的大小如何變化？如果縮小100x呢？

4. 線性注意Transformer

難度指數(shù)：☆☆☆

Transformer模型使用的是softmax中的軟注意力（soft attention）。如果可以使用線性注意力（linear attention），我們就能將得到的模型用于強化學習。

具體來說，在復雜環(huán)境下使用Transformer部署RL不切實際，但運行一個具有快速權重（fast weight）的RNN可行。

你的目標是接受任何語言建模任務，訓練Transformer，然后找到一種在不增加參數(shù)總數(shù)情況下，用具有不同超參數(shù)的線性注意Transformer獲取每個字符/字的相同位元的方法。

先給你潑盆冷水：這可能是無法實現(xiàn)的。再給你一個潛在的有用提示，與使用softmax注意力相比，線性注意轉化器很可能需要更高的維度key/value向量，這能在不顯著增加參數(shù)數(shù)量的情況下完成。

5. 已學習數(shù)據(jù)的擴充

難度指數(shù)：☆☆☆

可以用學習過的數(shù)據(jù)VAE執(zhí)行“已學習數(shù)據(jù)的擴充”。

我們首先可能需要在輸入數(shù)據(jù)上訓練一個VAE，然后將每個訓練點編碼到一個潛在的空間，之后在其中應用一個簡單（如高斯）擾動，最后解碼回到觀察的空間。用這種方法是否能得到更好的泛化，目前還是一個謎題。

這種數(shù)據(jù)擴充的一個潛在優(yōu)勢是，它可能包含視角變換、場景光纖變化等很多非線性轉換。

6. 強化學習中的正則化

難度指數(shù)：☆☆☆☆

這指的是實驗性研究和定性解釋不同正則化方法對RL算法的影響。

在監(jiān)督學習中，正則化對于優(yōu)化模型和防止過擬合具有極其重要的意義，其中包含一些效果很贊的方法，如dropout、批標準化和L2正則化等。

然而，在策略梯度和Q-learning等強化學習算法上，研究人員還沒有找到合適的正則化方法。順便說一下，人們在RL中使用的模型要比在監(jiān)督學習中使用的模型小得多，因為大模型表現(xiàn)更差。

7. Olympiad Inequality問題的自動解決方案

難度指數(shù)：☆☆☆☆☆

Olympiad Inequality問題很容易表達，但解決這個問題往往需要巧妙的手法。

建立一個關于Olympiad Inequality問題的數(shù)據(jù)集，編寫一個可以解決大部分問題的程序。目前還不清楚機器學習在這里是否有用，但你可以用一個學習的策略減少分支因素。

責任編輯：任我行

免責聲明：本文僅代表作者個人觀點，與本站無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內(nèi)容。

我要收藏

個贊

研究課題七大解之謎

評論

條

登錄后才能發(fā)表評論~

發(fā)表

點擊加載更多

欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

AI界的七大未解之謎：OpenAI丟出一組AI研究課題

碳中和戰(zhàn)略｜趙英民副部長致辭全文

兩部門：推廣不停電作業(yè)技術減少停電時間和停電次數(shù)

國家發(fā)改委、國家能源局：推廣不停電作業(yè)技術減少停電時間和停電次數(shù)

碳中和戰(zhàn)略｜趙英民副部長致辭全文

深度報告 | 基于分類監(jiān)管與當量協(xié)同的碳市場框架設計方案

碳市場讓重慶能源轉型與經(jīng)濟發(fā)展并進

兩部門：推廣不停電作業(yè)技術減少停電時間和停電次數(shù)

國家發(fā)改委、國家能源局：推廣不停電作業(yè)技術減少停電時間和停電次數(shù)

2020年二季度福建省統(tǒng)調(diào)燃煤電廠節(jié)能減排信息披露

四川“專線供電”身陷違法困境

我國能源替代規(guī)范法律問題研究（上）

區(qū)域鏈結構對于數(shù)據(jù)中心有什么影響？這個影響是好是壞呢！

五年內(nèi)顛覆性應用可期，區(qū)塊鏈技術將變革全球電力行業(yè)

英國區(qū)塊鏈電力服務初創(chuàng)公司Electron獲日本東京電力公司投資

NAD Grid：用區(qū)塊鏈技術打破寡頭壟斷的電力交易市場

綠色電力證書認購陷入停滯成交率僅為0.12%

“跨國交易”綠證市場火爆新動態(tài)

成交率僅為0.12%，綠證認購陷入停滯。

電力新聞

電力交易中心

配售電公司

新技術

人物訪談

電網(wǎng)企業(yè)

市場及媒體合作

投稿郵箱

大云網(wǎng)微信

大云網(wǎng)QQ群