Subequivariant Graph Reinforcement Learning in 3D Environments

要約

さまざまなエージェントの移動をガイドする共有ポリシーを学習することは、形態に依存しない RL の研究につながる強化学習 (RL) の中心的な関心事です。
ただし、既存のベンチマークは開始点と目標点の選択が非常に制限されており、2D 空間内でのエージェントの移動が制限されています。
この研究では、3D 環境における部分等変グラフ RL (3D-SGRL) と呼ばれる、形態に依存しない RL の新しいセットアップを提案します。
具体的には、まず、エージェントが任意の構成から開始して任意の方向に探索できる完全な自由度を持つことを可能にする、3D 空間におけるより実用的でありながらも挑戦的なベンチマークの新しいセットを導入します。
さらに、拡大された状態行動空間にわたって政策を最適化するために、幾何学的対称性、つまり部分等分散を政策と Q 関数のモデリングに注入して、政策を全方向に一般化して探索効率を向上させることを提案します。
この目標は、表現力豊かなメッセージ交換を可能にする新しい SubEquivariant Transformer (SET) によって達成されます。
最後に、提案されたベンチマークで提案された手法を評価します。この場合、私たちの手法は、シングルタスク、マルチタスク、およびゼロショット汎化シナリオで既存のアプローチを一貫して大幅に上回ります。
設計を検証するために大規模なアブレーションも行われます。
コードとビデオはプロジェクト ページ https://alpc91.github.io/SGRL/ で入手できます。

要約(オリジナル)

Learning a shared policy that guides the locomotion of different agents is of core interest in Reinforcement Learning (RL), which leads to the study of morphology-agnostic RL. However, existing benchmarks are highly restrictive in the choice of starting point and target point, constraining the movement of the agents within 2D space. In this work, we propose a novel setup for morphology-agnostic RL, dubbed Subequivariant Graph RL in 3D environments (3D-SGRL). Specifically, we first introduce a new set of more practical yet challenging benchmarks in 3D space that allows the agent to have full Degree-of-Freedoms to explore in arbitrary directions starting from arbitrary configurations. Moreover, to optimize the policy over the enlarged state-action space, we propose to inject geometric symmetry, i.e., subequivariance, into the modeling of the policy and Q-function such that the policy can generalize to all directions, improving exploration efficiency. This goal is achieved by a novel SubEquivariant Transformer (SET) that permits expressive message exchange. Finally, we evaluate the proposed method on the proposed benchmarks, where our method consistently and significantly outperforms existing approaches on single-task, multi-task, and zero-shot generalization scenarios. Extensive ablations are also conducted to verify our design. Code and videos are available on our project page: https://alpc91.github.io/SGRL/.

arxiv情報

著者 Runfa Chen,Jiaqi Han,Fuchun Sun,Wenbing Huang
発行日 2023-05-30 11:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク