Exploiting Symmetry in Dynamics for Model-Based Reinforcement Learning with Asymmetric Rewards

要約

強化学習における最近の研究では、モデルの対称性を活用して、ポリシーのトレーニングにおけるサンプルの効率を向上させています。
一般的に使用される単純化仮定は、ダイナミクスと報酬の両方が同じ対称性を示すというものです。
ただし、多くの実世界の環境では、力学モデルは報酬モデルとは独立した対称性を示します。報酬は力学と同じ対称性を満たさない場合があります。
この論文では、ダイナミクスのみが対称性を示すと仮定されるシナリオを調査し、対称性手法を適用できる強化学習および制御理論の学習の問題の範囲を拡張します。
カルタンの移動フレーム法を使用して、構造上、特定の対称性を示すダイナミクスを学習する手法を導入します。
数値実験を通じて、提案手法がより正確な力学モデルを学習することを実証します。

要約(オリジナル)

Recent work in reinforcement learning has leveraged symmetries in the model to improve sample efficiency in training a policy. A commonly used simplifying assumption is that the dynamics and reward both exhibit the same symmetry. However, in many real-world environments, the dynamical model exhibits symmetry independent of the reward model: the reward may not satisfy the same symmetries as the dynamics. In this paper, we investigate scenarios where only the dynamics are assumed to exhibit symmetry, extending the scope of problems in reinforcement learning and learning in control theory where symmetry techniques can be applied. We use Cartan’s moving frame method to introduce a technique for learning dynamics which, by construction, exhibit specified symmetries. We demonstrate through numerical experiments that the proposed method learns a more accurate dynamical model.

arxiv情報

著者 Yasin Sonmez,Neelay Junnarkar,Murat Arcak
発行日 2024-05-08 05:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク