Off-Policy Reinforcement Learning with High Dimensional Reward

要約

従来のオフポリシー強化学習 (RL) は、スカラー報酬の期待収益を最大化することに焦点を当てています。
対照的に、分布 RL (DRL) は、ユークリッド空間で分布ベルマン演算子を使用して収益の分布を研究し、効用の非常に柔軟な選択につながります。
この論文では、DRL の堅牢な理論的基礎を確立します。
報酬空間が無限次元の分離可能なバナッハ空間である場合でも、ベルマン演算子の短縮特性を証明します。
さらに、高次元または無限次元の収益の動作が、低次元のユークリッド空間を使用して効果的に近似できることを示します。
これらの理論的洞察を活用して、従来の強化学習アプローチでは以前は解決できなかった問題に取り組む新しい DRL アルゴリズムを提案します。

要約(オリジナル)

Conventional off-policy reinforcement learning (RL) focuses on maximizing the expected return of scalar rewards. Distributional RL (DRL), in contrast, studies the distribution of returns with the distributional Bellman operator in a Euclidean space, leading to highly flexible choices for utility. This paper establishes robust theoretical foundations for DRL. We prove the contraction property of the Bellman operator even when the reward space is an infinite-dimensional separable Banach space. Furthermore, we demonstrate that the behavior of high- or infinite-dimensional returns can be effectively approximated using a lower-dimensional Euclidean space. Leveraging these theoretical insights, we propose a novel DRL algorithm that tackles problems which have been previously intractable using conventional reinforcement learning approaches.

arxiv情報

著者 Dong Neuck Lee,Michael R. Kosorok
発行日 2024-08-14 16:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T05, cs.LG, stat.ML パーマリンク