要約
部分的に観察可能なマルコフ決定プロセス (POMDP) の強化学習 (RL) アルゴリズムに関する大量の文献があるにもかかわらず、完全な理論的理解はまだ不足しています。
部分的に観測可能な設定では、エージェントが利用できるデータの履歴は時間の経過とともに増加するため、ほとんどの実用的なアルゴリズムは、履歴を有限ウィンドウに切り捨てるか、リカレント ニューラル ネットワークを使用して履歴を圧縮して、非マルコフ状態のエージェント状態に導きます。
この論文では、マルコフ特性の欠如にもかかわらず、リカレント Q 学習 (RQL) が表形式の設定で収束することを示しています。
さらに、収束限界の品質は、近似情報状態 (AIS) として知られるものの観点から定量化される表現の品質に依存することが示されています。
近似誤差のこの特徴に基づいて、AIS 損失を伴う RQL の変形が提示されます。
このバリアントは、AIS 損失を使用しない RQL の強力なベースラインよりもパフォーマンスが優れています。
RQL の経時的なパフォーマンスと AIS 表現に関連する損失の間には強い相関関係があることが実証されています。
要約(オリジナル)
In spite of the large literature on reinforcement learning (RL) algorithms for partially observable Markov decision processes (POMDPs), a complete theoretical understanding is still lacking. In a partially observable setting, the history of data available to the agent increases over time so most practical algorithms either truncate the history to a finite window or compress it using a recurrent neural network leading to an agent state that is non-Markovian. In this paper, it is shown that in spite of the lack of the Markov property, recurrent Q-learning (RQL) converges in the tabular setting. Moreover, it is shown that the quality of the converged limit depends on the quality of the representation which is quantified in terms of what is known as an approximate information state (AIS). Based on this characterization of the approximation error, a variant of RQL with AIS losses is presented. This variant performs better than a strong baseline for RQL that does not use AIS losses. It is demonstrated that there is a strong correlation between the performance of RQL over time and the loss associated with the AIS representation.
arxiv情報
著者 | Erfan Seyedsalehi,Nima Akbarzadeh,Amit Sinha,Aditya Mahajan |
発行日 | 2023-06-09 15:59:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google