M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning

要約

操作タスクの生涯模倣学習は、漸進的な学習ステップで発生する分布シフトのため、重大な課題を提起する。既存の手法では、教師なしスキル発見による増え続けるスキルライブラリの構築や、複数のポリシーからの蒸留が中心となっているが、多様な操作タスクが継続的に導入されるため、スケーラビリティの問題につながる可能性があり、また、学習プロセス全体を通して一貫した潜在空間を確保できず、以前に学習したスキルの壊滅的な忘却につながる可能性がある。本論文では、生涯模倣学習のためのマルチモーダル蒸留法であるM2Distillを紹介する。M2Distillは、学習過程を通して、視覚、言語、行動分布の一貫した潜在空間を保持することに主眼を置く。異なるモダリティ間の潜在表現のシフトを前のステップから現在のステップへと調整し、連続する学習ステップ間のガウス混合モデル(GMM)ポリシーの不一致を低減することで、学習されたポリシーが、新しいスキルをシームレスに統合しながら、以前に学習したタスクを実行する能力を保持することを保証する。LIBERO-OBJECT、LIBERO-GOAL、LIBERO-SPATIALを含むLIBERO生涯模倣学習ベンチマークスイートにおける広範な評価により、我々の手法が全ての評価指標において一貫して先行最先端手法を凌駕することが実証された。

要約(オリジナル)

Lifelong imitation learning for manipulation tasks poses significant challenges due to distribution shifts that occur in incremental learning steps. Existing methods often focus on unsupervised skill discovery to construct an ever-growing skill library or distillation from multiple policies, which can lead to scalability issues as diverse manipulation tasks are continually introduced and may fail to ensure a consistent latent space throughout the learning process, leading to catastrophic forgetting of previously learned skills. In this paper, we introduce M2Distill, a multi-modal distillation-based method for lifelong imitation learning focusing on preserving consistent latent space across vision, language, and action distributions throughout the learning process. By regulating the shifts in latent representations across different modalities from previous to current steps, and reducing discrepancies in Gaussian Mixture Model (GMM) policies between consecutive learning steps, we ensure that the learned policy retains its ability to perform previously learned tasks while seamlessly integrating new skills. Extensive evaluations on the LIBERO lifelong imitation learning benchmark suites, including LIBERO-OBJECT, LIBERO-GOAL, and LIBERO-SPATIAL, demonstrate that our method consistently outperforms prior state-of-the-art methods across all evaluated metrics.

arxiv情報

著者 Kaushik Roy,Akila Dissanayake,Brendan Tidd,Peyman Moghadam
発行日 2024-10-04 04:53:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク