精品1区2区3区芒果,国产精品福利尤物youwu

主要介紹自己閱讀《Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems 》《A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems》
這兩篇文章后的一些感悟和梳理如果有小伙伴感興趣的話我們可以多多討論一下

簡介

Offline Reinforcement Learning 的中文名是離線強(qiáng)化學(xué)習(xí)，所謂離線和單機(jī)游戲給人的感覺很像：自己玩自己的，不用和別人一起。強(qiáng)化學(xué)習(xí)中的離線也就意味著你的agent不和外界交互，使用的數(shù)據(jù)是固定的。
這里有必要重申一下強(qiáng)化學(xué)習(xí)的on policy 和 off policy 兩種方法的區(qū)別在于優(yōu)化的策略和獲得數(shù)據(jù)的策略是否相同，一種是在自己探索的過程中學(xué)習(xí)，一種是看著別人的經(jīng)驗(yàn)為自己所用。

分類

說實(shí)話，在讀《Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems》的時候介紹最多的是重要性采樣和策略約束、不確定性限制這類方法。經(jīng)過多次總結(jié)加上看了《A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems》的總結(jié)，有了一點(diǎn)自己小小的感悟。

離線RL和普通RL的區(qū)別在于數(shù)據(jù)不能更新，所以在傳統(tǒng)解法的基礎(chǔ)上會面臨新的問題，但大體解決思路不變：依然分為 model-based 和 model-free兩大類。

如果能夠?qū)顟B(tài)轉(zhuǎn)移和獎勵精確建模，那么就可以直接轉(zhuǎn)化為動態(tài)規(guī)劃進(jìn)行求解。用歷史數(shù)據(jù)擬合出來的模型產(chǎn)生新數(shù)據(jù)進(jìn)行計(jì)算，如果狀態(tài)太多不易求解，直接采樣估計(jì)也是一個很不錯的想法。
如果對環(huán)境模型不夠了解的話，就只能根據(jù)自己走過的路進(jìn)行推斷和學(xué)習(xí)了。

在具體求解策略時，也有兩種不同的思路：一種是動作狀態(tài)值函數(shù)（狀態(tài)值函數(shù)）通過貪婪策略得解，在得到值函數(shù)時根據(jù)動作離散和連續(xù)又可以分為表格型和函數(shù)近似型；另一種是策略梯度，即直接用函數(shù)擬合策略，找到合適參數(shù)也就找到了好的策略。在這兩種方法的基礎(chǔ)上，出現(xiàn)了Actor-Critic方法結(jié)合了值函數(shù)和策略梯度，通過兩者的互相更新得到更優(yōu)的結(jié)果。

在上述表格中還提及了trajectory distribution 的相關(guān)內(nèi)容，不幸的是我還沒有參透這一方面到底是依靠什么來得到策略?；蛟S是軌跡分布，然后看出哪類軌跡得到的獎勵多，沒有的擬合一下，之后直接使用？【待補(bǔ)充...】

注：

介紹

這兩篇文章一共詳細(xì)介紹了重要性采樣、策略約束、不確定性估計(jì)和正則化這四類方法，還有 one-step AC 和 multi-step AC 等多個方法。之后就結(jié)合我自己讀論文的想法和網(wǎng)上的一些資料對這些方法進(jìn)行梳理和理解。
以下放一張描述 Offline RL 發(fā)展很貼切的圖片（源自論文Reinforcement Learning in Practice: Opportunities and Challenges）

之后的每一類方法都會分開介紹~ 希望能早日弄懂-_-！

本文摘自：https://www.cnblogs.com/

Offline Reinforcement Learning2022-05-29 22:44:38

簡介

分類

介紹

Offline Reinforcement Learning
2022-05-29 22:44:38