要約
階層的な政策学習における最近の進歩は、システムを高レベルで低レベルのエージェントに分解することの利点を強調し、効率的な長期推論と正確な細粒の制御を可能にします。
ただし、これらの階層レベル間のインターフェースは露出度の低いままであり、既存の階層的手法はドメインの対称性を無視することが多く、その結果、堅牢なパフォーマンスを実現するための広範なデモンストレーションが必要になります。
これらの問題に対処するために、新しい階層的ポリシーフレームワークである階層的等式ポリシー(HEP)を提案します。
高レベルのエージェントの出力を低レベルエージェントの座標フレームとして使用する階層的なポリシー学習のフレーム転送インターフェイスを提案し、柔軟性を維持しながら強力な帰納的バイアスを提供します。
さらに、ドメインの対称性を両方のレベルに統合し、理論的にシステムの全体的な等容量を実証します。
HEPは、複雑なロボット操作タスクで最先端のパフォーマンスを実現し、シミュレーションと現実世界の両方の設定の両方の大幅な改善を示しています。
要約(オリジナル)
Recent advances in hierarchical policy learning highlight the advantages of decomposing systems into high-level and low-level agents, enabling efficient long-horizon reasoning and precise fine-grained control. However, the interface between these hierarchy levels remains underexplored, and existing hierarchical methods often ignore domain symmetry, resulting in the need for extensive demonstrations to achieve robust performance. To address these issues, we propose Hierarchical Equivariant Policy (HEP), a novel hierarchical policy framework. We propose a frame transfer interface for hierarchical policy learning, which uses the high-level agent’s output as a coordinate frame for the low-level agent, providing a strong inductive bias while retaining flexibility. Additionally, we integrate domain symmetries into both levels and theoretically demonstrate the system’s overall equivariance. HEP achieves state-of-the-art performance in complex robotic manipulation tasks, demonstrating significant improvements in both simulation and real-world settings.
arxiv情報
著者 | Haibo Zhao,Dian Wang,Yizhe Zhu,Xupeng Zhu,Owen Howell,Linfeng Zhao,Yaoyao Qian,Robin Walters,Robert Platt |
発行日 | 2025-02-11 17:14:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google