基于深度強(qiáng)化學(xué)習(xí)的空天地一體化網(wǎng)絡(luò)信息物理系統(tǒng)垂直切換策略
通信學(xué)報
頁數(shù): 12 2024-08-25
摘要: 針對空天地一體化網(wǎng)絡(luò)信息物理系統(tǒng)模型復(fù)雜、很難獲得網(wǎng)絡(luò)拓?fù)湎闰?yàn)知識和模型化假設(shè)的特點(diǎn),研究其基于深度強(qiáng)化學(xué)習(xí)的垂直切換策略。首先,綜合考慮系統(tǒng)穩(wěn)定性、切換開銷和網(wǎng)絡(luò)使用成本約束,將垂直切換策略問題建模為約束馬爾可夫決策過程(CMDP),并給出保證可行解存在的充分條件;其次,提出約束-近端策略優(yōu)化(CPPO)算法解決該問題,并在基站側(cè)引入分布式強(qiáng)化學(xué)習(xí)機(jī)制加速訓(xùn)練收斂。相較于基準(zhǔn)...