主要介紹自己閱讀《Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems 》《A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems》
這兩篇文章后的一些感悟和梳理 如果有小伙伴感興趣的話我們可以多多討論一下
簡(jiǎn)介
Offline Reinforcement Learning 的中文名是離線強(qiáng)化學(xué)習(xí),所謂離線和單機(jī)游戲給人的感覺(jué)很像:自己玩自己的,不用和別人一起。強(qiáng)化學(xué)習(xí)中的離線也就意味著你的agent不和外界交互,使用的數(shù)據(jù)是固定的。
這里有必要重申一下強(qiáng)化學(xué)習(xí)的on policy 和 off policy 兩種方法的區(qū)別在于優(yōu)化的策略和獲得數(shù)據(jù)的策略是否相同,一種是在自己探索的過(guò)程中學(xué)習(xí),一種是看著別人的經(jīng)驗(yàn)為自己所用。
分類(lèi)
說(shuō)實(shí)話,在讀《Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems》的時(shí)候介紹最多的是重要性采樣和策略約束、不確定性限制這類(lèi)方法。經(jīng)過(guò)多次總結(jié)加上看了《A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems》的總結(jié),有了一點(diǎn)自己小小的感悟。
離線RL和普通RL的區(qū)別在于數(shù)據(jù)不能更新,所以在傳統(tǒng)解法的基礎(chǔ)上會(huì)面臨新的問(wèn)題,但大體解決思路不變:依然分為 model-based 和 model-free兩大類(lèi)。
- 如果能夠?qū)顟B(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)精確建模,那么就可以直接轉(zhuǎn)化為動(dòng)態(tài)規(guī)劃進(jìn)行求解。用歷史數(shù)據(jù)擬合出來(lái)的模型產(chǎn)生新數(shù)據(jù)進(jìn)行計(jì)算,如果狀態(tài)太多不易求解,直接采樣估計(jì)也是一個(gè)很不錯(cuò)的想法。
- 如果對(duì)環(huán)境模型不夠了解的話,就只能根據(jù)自己走過(guò)的路進(jìn)行推斷和學(xué)習(xí)了。
在具體求解策略時(shí),也有兩種不同的思路:一種是動(dòng)作狀態(tài)值函數(shù)(狀態(tài)值函數(shù))通過(guò)貪婪策略得解,在得到值函數(shù)時(shí)根據(jù)動(dòng)作離散和連續(xù)又可以分為表格型和函數(shù)近似型;另一種是策略梯度,即直接用函數(shù)擬合策略,找到合適參數(shù)也就找到了好的策略。在這兩種方法的基礎(chǔ)上,出現(xiàn)了Actor-Critic方法結(jié)合了值函數(shù)和策略梯度,通過(guò)兩者的互相更新得到更優(yōu)的結(jié)果。
在上述表格中還提及了trajectory distribution 的相關(guān)內(nèi)容,不幸的是我還沒(méi)有參透這一方面到底是依靠什么來(lái)得到策略?;蛟S是軌跡分布,然后看出哪類(lèi)軌跡得到的獎(jiǎng)勵(lì)多,沒(méi)有的擬合一下,之后直接使用?【待補(bǔ)充...】
注:
介紹
這兩篇文章一共詳細(xì)介紹了重要性采樣、策略約束、不確定性估計(jì)和正則化這四類(lèi)方法,還有 one-step AC 和 multi-step AC 等多個(gè)方法。之后就結(jié)合我自己讀論文的想法和網(wǎng)上的一些資料對(duì)這些方法進(jìn)行梳理和理解。
以下放一張描述 Offline RL 發(fā)展很貼切的圖片(源自論文Reinforcement Learning in Practice: Opportunities and Challenges)
之后的每一類(lèi)方法都會(huì)分開(kāi)介紹~ 希望能早日弄懂-_-!
本文摘自 :https://www.cnblogs.com/