基于價(jià)值函數(shù)分解和通信學(xué)習(xí)機(jī)制的異構(gòu)多智能體強(qiáng)化學(xué)習(xí)方法
計(jì)算機(jī)學(xué)報(bào)
頁(yè)數(shù): 19 2024-04-09
摘要: 許多現(xiàn)實(shí)世界的系統(tǒng)可以被建模為多智能體系統(tǒng),多智能體強(qiáng)化學(xué)習(xí)為開(kāi)發(fā)這些系統(tǒng)提供了一種有效的方法,其中基于集中訓(xùn)練與分散執(zhí)行范式的價(jià)值函數(shù)分解方法得到了廣泛的研究.然而現(xiàn)有的價(jià)值分解方法一般缺乏通信機(jī)制,在處理需要通信學(xué)習(xí)的多智能體任務(wù)時(shí)表現(xiàn)不佳.同時(shí),目前大多數(shù)通信機(jī)制都是針對(duì)同構(gòu)多智能體環(huán)境設(shè)計(jì)的,沒(méi)有考慮異構(gòu)多智能體場(chǎng)景.在異構(gòu)場(chǎng)景中,由于智能體動(dòng)作空間或觀測(cè)空間的異構(gòu)性,... (共19頁(yè))