要約
モダン模倣学習(IL)ポリシーの設計には、機能のエンコード、アーキテクチャ、ポリシー表現などの選択など、多くの決定を下す必要があります。
フィールドが急速に進むにつれて、利用可能なオプションの範囲が成長し続け、ILポリシーのための広大でほとんど未踏の設計スペースを作成します。
この作業では、この設計空間を体系的に探索するように設計されたアクセス可能なオープンソースフレームワークであるX-ILを提示します。
フレームワークのモジュラー設計により、バックボーン(トランス、MAMBA、XLSTMなど)やポリシー最適化技術(スコアマッチング、フローマッチングなど)などのポリシーコンポーネントのシームレスな交換が可能になります。
この柔軟性は包括的な実験を促進し、最近のロボット学習ベンチマークで既存の方法を上回る新しいポリシー構成の発見につながりました。
私たちの実験は、大幅なパフォーマンスの向上だけでなく、さまざまな設計選択の長所と短所に関する貴重な洞察も提供します。
この研究は、実践者のための実践的な参照と、模倣学習の将来の研究を導くための基盤の両方として機能します。
要約(オリジナル)
Designing modern imitation learning (IL) policies requires making numerous decisions, including the selection of feature encoding, architecture, policy representation, and more. As the field rapidly advances, the range of available options continues to grow, creating a vast and largely unexplored design space for IL policies. In this work, we present X-IL, an accessible open-source framework designed to systematically explore this design space. The framework’s modular design enables seamless swapping of policy components, such as backbones (e.g., Transformer, Mamba, xLSTM) and policy optimization techniques (e.g., Score-matching, Flow-matching). This flexibility facilitates comprehensive experimentation and has led to the discovery of novel policy configurations that outperform existing methods on recent robot learning benchmarks. Our experiments demonstrate not only significant performance gains but also provide valuable insights into the strengths and weaknesses of various design choices. This study serves as both a practical reference for practitioners and a foundation for guiding future research in imitation learning.
arxiv情報
著者 | Xiaogang Jia,Atalay Donat,Xi Huang,Xuan Zhao,Denis Blessing,Hongyi Zhou,Han A. Wang,Hanyi Zhang,Qian Wang,Rudolf Lioutikov,Gerhard Neumann |
発行日 | 2025-02-19 08:57:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google