A Distributional Analogue to the Successor Representation


後続表現 (SR) が特定のポリシーに従って動作することで予想される結果を記述するのと同様に、分布的後継者測定 (SM) はこの動作の分布的結果を記述します。
私たちは分布 SM を分布上の分布として定式化し、それを分布学習およびモデルベースの強化学習と結び付ける理論を提供します。
分散型 SM の有用性の実例として、分散型 SM が以前は不可能だった方法でゼロショットのリスクに敏感な政策評価を可能にすることを示します。


This paper contributes a new approach for distributional reinforcement learning which elucidates a clean separation of transition structure and reward in the learning process. Analogous to how the successor representation (SR) describes the expected consequences of behaving according to a given policy, our distributional successor measure (SM) describes the distributional consequences of this behaviour. We formulate the distributional SM as a distribution over distributions and provide theory connecting it with distributional and model-based reinforcement learning. Moreover, we propose an algorithm that learns the distributional SM from data by minimizing a two-level maximum mean discrepancy. Key to our method are a number of algorithmic techniques that are independently valuable for learning generative models of state. As an illustration of the usefulness of the distributional SM, we show that it enables zero-shot risk-sensitive policy evaluation in a way that was not previously possible.


著者 Harley Wiltzer,Jesse Farebrother,Arthur Gretton,Yunhao Tang,André Barreto,Will Dabney,Marc G. Bellemare,Mark Rowland
発行日 2024-05-24 16:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク