Subequivariant Reinforcement Learning in 3D Multi-Entity Physical Environments

要約

3D 環境におけるマルチエンティティ システムの学習ポリシーは、エンティティの数が増加するにつれてグローバル状態空間が指数関数的に拡大するため、単一エンティティのシナリオに比べてはるかに複雑になります。
指数関数的な複雑さを軽減する可能性のある解決策の 1 つは、グローバル空間を、平行移動や回転を含む変換に対して不変の独立したローカル ビューに分割することです。
この目的を達成するために、この論文では、複数エンティティのポリシー学習を容易にする準等変階層ニューラル ネットワーク (SHNN) を提案します。
特に、SHNN はまず、タスク割り当てを通じてグローバル空間をローカル エンティティ レベルのグラフに動的に分離します。
第 2 に、ローカル エンティティ レベルのグラフを通過する準等変メッセージを利用してローカル参照フレームを考案し、特に重力の影響を受ける環境で表現の冗長性を大幅に圧縮します。
さらに、ユークリッド対称性の下で複数エンティティ システムの微妙な点を捉える際の既存のベンチマークの限界を克服するために、広範囲にわたる複数エンティティの強化を調査するために調整された新しい環境スイートである Multi-entity Benchmark (MEBEN) を提案します。
学ぶ。
広範な実験により、既存の手法と比較して、提案されたベンチマークにおける SHNN の大幅な進歩が実証されました。
包括的なアブレーションは、タスクの割り当てと準同等性の不可欠性を検証するために実行されます。

要約(オリジナル)

Learning policies for multi-entity systems in 3D environments is far more complicated against single-entity scenarios, due to the exponential expansion of the global state space as the number of entities increases. One potential solution of alleviating the exponential complexity is dividing the global space into independent local views that are invariant to transformations including translations and rotations. To this end, this paper proposes Subequivariant Hierarchical Neural Networks (SHNN) to facilitate multi-entity policy learning. In particular, SHNN first dynamically decouples the global space into local entity-level graphs via task assignment. Second, it leverages subequivariant message passing over the local entity-level graphs to devise local reference frames, remarkably compressing the representation redundancy, particularly in gravity-affected environments. Furthermore, to overcome the limitations of existing benchmarks in capturing the subtleties of multi-entity systems under the Euclidean symmetry, we propose the Multi-entity Benchmark (MEBEN), a new suite of environments tailored for exploring a wide range of multi-entity reinforcement learning. Extensive experiments demonstrate significant advancements of SHNN on the proposed benchmarks compared to existing methods. Comprehensive ablations are conducted to verify the indispensability of task assignment and subequivariance.

arxiv情報

著者 Runfa Chen,Ling Wang,Yu Du,Tianrui Xue,Fuchun Sun,Jianwei Zhang,Wenbing Huang
発行日 2024-07-17 11:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク