融合強化學習的三支治略選擇及其有效性分析
計算機科學與探索
頁數(shù): 9 2023-04-11
摘要: 三支決策的“分、治、效”(TAO)模型包括構建三分、施加策略、結果評估三個部分。目前,關于結果評估的研究旨在衡量策略施加后結果的前后變化,還無法預測施加哪個策略能達到最大效果。為了解決這一問題,對TAO模型的“治”和“效”進行了研究,提出一種基于強化學習的三支改變模型的策略選擇與有效性預測的方法。首先將改變三支決策TAO模型中的改變三分狀態(tài)和策略分別作為強化學習中的狀態(tài)和動作,...