要約
この論文は、学習プロセスにおける遷移構造と報酬の明確な分離を解明する、分布強化学習の新しいアプローチに貢献します。
後続表現 (SR) が特定のポリシーに従って動作することで予想される結果を記述するのと同様に、分布的後継者測定 (SM) はこの動作の分布的結果を記述します。
私たちは分布 SM を分布上の分布として定式化し、それを分布学習およびモデルベースの強化学習と結び付ける理論を提供します。
さらに、2レベルの最大平均不一致を最小限に抑えることによってデータから分布SMを学習するアルゴリズムを提案します。
私たちの方法の鍵となるのは、状態の生成モデルを学習するために独立して価値のある多数のアルゴリズム技術です。
分散型 SM の有用性の実例として、分散型 SM が以前は不可能だった方法でゼロショットのリスクに敏感な政策評価を可能にすることを示します。
要約(オリジナル)
This paper contributes a new approach for distributional reinforcement learning which elucidates a clean separation of transition structure and reward in the learning process. Analogous to how the successor representation (SR) describes the expected consequences of behaving according to a given policy, our distributional successor measure (SM) describes the distributional consequences of this behaviour. We formulate the distributional SM as a distribution over distributions and provide theory connecting it with distributional and model-based reinforcement learning. Moreover, we propose an algorithm that learns the distributional SM from data by minimizing a two-level maximum mean discrepancy. Key to our method are a number of algorithmic techniques that are independently valuable for learning generative models of state. As an illustration of the usefulness of the distributional SM, we show that it enables zero-shot risk-sensitive policy evaluation in a way that was not previously possible.
arxiv情報
著者 | Harley Wiltzer,Jesse Farebrother,Arthur Gretton,Yunhao Tang,André Barreto,Will Dabney,Marc G. Bellemare,Mark Rowland |
発行日 | 2024-02-13 15:35:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google