我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
繼今年 8 月谷歌開(kāi)源發(fā)布了專(zhuān)為學(xué)術(shù)研究人員設計的簡(jiǎn)單但魯棒的強化學(xué)習框架「多巴胺」(Dopamine)之后,早已被谷歌母公司收購但保持獨立運營(yíng)的 DeepMind 也把自己日常使用的代碼庫拿出來(lái)開(kāi)源,繼續為領(lǐng)域內的研究人員們提供功能豐富、高可復現性及高可拓展性的實(shí)驗工具。雷鋒網(wǎng) AI 科技評論介紹如下。
今天 DeepMind 宣布開(kāi)源一個(gè)用于在 TensorFlow 環(huán)境中開(kāi)發(fā)強化學(xué)習智能體的代碼庫,打包了許多有用的基礎組件。它的名字是 TRFL(讀作「truffle」) 。
DeepMind 自己用來(lái)開(kāi)發(fā) DQN、DDPG 以及 IMPALA(重要性加權行動(dòng)者-學(xué)習者架構)等知名強化學(xué)習技術(shù)的許多關(guān)鍵算法組件都包含在其中。
另一種開(kāi)源路線(xiàn)
一個(gè)典型的深度強化學(xué)習智能體需要包含一組數目眾多的互動(dòng)組件:首先起碼需要包括一個(gè)環(huán)境以及某種能表示值或者策略的深度神經(jīng)網(wǎng)絡(luò ),然后很多時(shí)候還會(huì )包含學(xué)習到的環(huán)境的模型、偽反饋函數甚至一個(gè)回放系統等等。
這些組件互相之間的影響很微妙(而且如 Henderson 和他的同事在 https://arxiv.org/pdf/1709.06560.pdf 中指出,論文中常常并不會(huì )詳細說(shuō)明這些影響是怎么樣的),從而當計算圖變得很大的時(shí)候一旦出現 bug 就很難進(jìn)行定位并解決。OpenAI 近期的一篇博客也著(zhù)重研究了這個(gè)問(wèn)題,他們分析了某些最熱門(mén)的強化學(xué)習智能體的開(kāi)源實(shí)現,發(fā)現 10 個(gè)中的 6 個(gè)都「由社區成員發(fā)現了微小的 bug 并得到了作者本人的確認」。
要解決這種問(wèn)題,并幫助整個(gè)研究社區中的人順利復現論文中的結果,其中一種方法就是開(kāi)源智能體的全套完整實(shí)現。比如,DeepMind 最近就開(kāi)源了基于 IMPALA 的 v-trace 智能體的可拓展分布式實(shí)現。這種大規模的代碼庫對于研究結果的復現固然有幫助,但同時(shí)也難以修改并拓展。
另一種有所不同并且能起到補充作用的方法是提供可靠的、經(jīng)過(guò)充分測試的通用基礎組件的實(shí)現,同一個(gè)構件也就可以在許多不同的強化學(xué)習智能體中反復使用。另一方面,在單個(gè)代碼庫中囊括了所有這些組件的抽象,然后可以用統一的 API 調用,也就讓研究人員可以更方便地組合不同文獻中閱讀到的不同的想法。
全功能的基礎組件
TRFL 庫包含了許多功能,可以實(shí)現經(jīng)典強化學(xué)習算法以及更現代的算法。其中的損失函數以及許多其他操作都是完全在 TensorFlow 中實(shí)現的。它們并不是完整的算法,而是構建具有完整功能的強化學(xué)習智能體時(shí)必要的、也是強化學(xué)習專(zhuān)用的數學(xué)操作的代碼實(shí)現。
對于基于值的強化學(xué)習,DeepMind 的研究人員們也在 TRFL 庫中提供了各種 TensorFlow 操作,便于在離散的行動(dòng)空間中學(xué)習,比如 TD 學(xué)習、Sarsa、Q-learning 以及它們的變體;當然也包括了用于實(shí)現 DPG 之類(lèi)的連續控制算法的操作。TRFL 庫中還包括了學(xué)習值分布函數的操作。這些操作支持批量計算,并且返回的損失值可以送入 TensorFlow 優(yōu)化器進(jìn)行最小化。有一些損失值是針對不同的批之間的變化進(jìn)行計算的(比如 Sarsa 和 Q-learning 等),也有一些損失是針對成批的軌跡的(比如 Q-lambda、Retace 等)。
對于基于策略的方法,TRFL 庫中也同時(shí)提供了可以簡(jiǎn)易實(shí)現 A2C 等在線(xiàn)學(xué)習方法以及 v-trace 等離線(xiàn)策略校正方法的工具。TRFL 也支持連續動(dòng)作空間中的策略梯度的計算。最后,TRFL 還提供了一個(gè) Unreal 引擎中使用的輔助偽反饋函數的實(shí)現,DeepMind 的研究人員發(fā)現它能在許多不同的任務(wù)中提高數據效率。
宣告開(kāi)源顯然并不是這個(gè)項目的終點(diǎn)。由于這個(gè)庫在 DeepMind 內部有著(zhù)廣泛的應用,他們也會(huì )持續不斷地對它進(jìn)行維護,并逐步增加新的功能。DeepMind 也非常期待強化學(xué)習社區中的更多人也參與到這個(gè)項目的貢獻中來(lái)。
?。?a href="http://www.cki5.com">邯鄲建站)
小米應用商店發(fā)布消息稱(chēng) 持續開(kāi)展“APP 侵害用戶(hù)權益治理”系列行動(dòng) 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線(xiàn) 加速數字技術(shù)在實(shí)體經(jīng)濟中的落地和應用 11:34:49
樂(lè )視回應還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購物車(chē)擴展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區分公司 09:53:13