逆強(qiáng)化學(xué)習(xí)算法、理論與應(yīng)用研究綜述
自動(dòng)化學(xué)報(bào)
頁(yè)數(shù): 20 2024-03-21
摘要: 隨著高維特征表示與逼近能力的提高,強(qiáng)化學(xué)習(xí)(Reinforcement learning, RL)在博弈與優(yōu)化決策、智能駕駛等現(xiàn)實(shí)問(wèn)題中的應(yīng)用也取得顯著進(jìn)展.然而強(qiáng)化學(xué)習(xí)在智能體與環(huán)境的交互中存在人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)難的問(wèn)題,因此研究者提出了逆強(qiáng)化學(xué)習(xí)(Inverse reinforcement learning, IRL)這一研究方向.如何從專(zhuān)家演示中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)和進(jìn)行策略?xún)?yōu)化是...