基于自適應不確定性度量的離線強化學習算法
南京郵電大學學報(自然科學版)
頁數(shù): 7 2024-07-02
摘要: 離線強化學習可以從歷史經(jīng)驗數(shù)據(jù)中直接學習出可執(zhí)行的策略,由此來避免與在線環(huán)境的高代價交互,可應用于機器人控制、無人駕駛、智能營銷等多種真實場景。有模型的離線強化學習首先通過監(jiān)督學習構造環(huán)境模型,并通過與該環(huán)境模型交互來優(yōu)化學習策略,具有樣本效率高的特點,是最常用的離線強化學習算法。然而,由于離線數(shù)據(jù)集存在分布偏移問題,現(xiàn)有的方法往往通過靜態(tài)的方法來評估此種不確定性,無法動態(tài)自適... (共7頁)