要約
新規長老3D操作タスクへの言語条件付きマルチタスク模倣学習(IL)モデルの一般化は、依然として重要な課題です。
これに対処するために、さまざまなマルチタスクILモデルと互換性のあるモデルに依存しないフレームワークであるデコ(タスク分解とスキル構成)を提案します。
DECOは、最初にILデモンストレーションをグリッパーとオブジェクト間の物理的相互作用に基づいて一連のモジュラー原子タスクに分解し、モデルが模倣学習中に多様な再利用可能なアトミックスキルを学習できるようにする原子トレーニングデータセットを構築します。
推論時に、デコはビジョン言語モデル(VLM)を活用して、新しい長老タスクの高レベルの命令を解析し、関連する原子スキルを取得し、実行を動的にスケジュールします。
空間的に認識されたスキルチェーンモジュールは、シーケンシャルスキル間のスムーズで衝突のない移行を保証します。
デコベンチを使用してシミュレーションでデコを評価します。デコベンチは、組成の長老型操作におけるマルチタスクILモデルのゼロショット一般化を評価するために特別に設計されたベンチマークです。
3つの代表的なマルチタスクILモデル(RVT-2、3DDA、およびARP)で、DECOは、12の新しい組成タスクで、それぞれ66.67%、21.53%、および57.92%の成功率の改善を達成します。
さらに、実際の実験では、6つの原子タスクのみで訓練されたデコで強化されたモデルが9つの新しい長期タスクを正常に完了し、ベースマルチタスクILモデルで53.33%の平均成功率改善をもたらします。
ビデオデモンストレーションは、https://deco226.github.ioで入手できます。
要約(オリジナル)
Generalizing language-conditioned multi-task imitation learning (IL) models to novel long-horizon 3D manipulation tasks remains a significant challenge. To address this, we propose DeCo (Task Decomposition and Skill Composition), a model-agnostic framework compatible with various multi-task IL models, designed to enhance their zero-shot generalization to novel, compositional, long-horizon 3D manipulation tasks. DeCo first decomposes IL demonstrations into a set of modular atomic tasks based on the physical interaction between the gripper and objects, and constructs an atomic training dataset that enables models to learn a diverse set of reusable atomic skills during imitation learning. At inference time, DeCo leverages a vision-language model (VLM) to parse high-level instructions for novel long-horizon tasks, retrieve the relevant atomic skills, and dynamically schedule their execution; a spatially-aware skill-chaining module then ensures smooth, collision-free transitions between sequential skills. We evaluate DeCo in simulation using DeCoBench, a benchmark specifically designed to assess zero-shot generalization of multi-task IL models in compositional long-horizon 3D manipulation. Across three representative multi-task IL models (RVT-2, 3DDA, and ARP), DeCo achieves success rate improvements of 66.67%, 21.53%, and 57.92%, respectively, on 12 novel compositional tasks. Moreover, in real-world experiments, a DeCo-enhanced model trained on only 6 atomic tasks successfully completes 9 novel long-horizon tasks, yielding an average success rate improvement of 53.33% over the base multi-task IL model. Video demonstrations are available at: https://deco226.github.io.
arxiv情報
著者 | Zixuan Chen,Junhui Yin,Yangtao Chen,Jing Huo,Pinzhuo Tian,Jieqi Shi,Yiwen Hou,Yinchuan Li,Yang Gao |
発行日 | 2025-05-01 13:52:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google