An Atomic Skill Library Construction Method for Data-Efficient Embodied Manipulation

要約

具体化された操作は、具体化された人工知能の領域における基本的な能力です。
現在の具体化された操作モデルは、特定の設定で特定の一般化を示していますが、実際のシナリオの複雑さと多様性のために、新しい環境とタスクで苦労しています。
従来のエンドツーエンドのデータ収集とトレーニングマナーは、重要なデータ需要につながります。
エンドツーエンドのタスクをアトミックスキルに分解すると、データ要件を削減し、タスクの成功率が向上します。
ただし、既存の方法は、動的に更新できない事前定義されたスキルセットによって制限されます。
この問題に対処するために、アトミックスキルライブラリを構築するための3輪駆動型の方法を紹介します。
Vision-Language-Planning(VLP)を使用して、タスクをサブタスクに分割します。
次に、サブタスクを抽象化することにより、原子スキルの定義が形成されます。
最後に、原子スキルライブラリは、データ収集とビジョン言語アクション(VLA)微調整を介して構築されます。
アトミックスキルライブラリが3輪更新戦略で動的に拡大すると、カバーできるタスクの範囲は自然に成長します。
このようにして、私たちの方法は、エンドツーエンドのタスクからアトミックスキルに焦点を移し、高性能を維持しながらデータコストを大幅に削減し、新しいタスクに効率的な適応を可能にします。
現実世界の設定での広範な実験は、私たちのアプローチの有効性と効率性を示しています。

要約(オリジナル)

Embodied manipulation is a fundamental ability in the realm of embodied artificial intelligence. Although current embodied manipulation models show certain generalizations in specific settings, they struggle in new environments and tasks due to the complexity and diversity of real-world scenarios. The traditional end-to-end data collection and training manner leads to significant data demands. Decomposing end-to-end tasks into atomic skills helps reduce data requirements and improves the task success rate. However, existing methods are limited by predefined skill sets that cannot be dynamically updated. To address the issue, we introduce a three-wheeled data-driven method to build an atomic skill library. We divide tasks into subtasks using the Vision-Language-Planning (VLP). Then, atomic skill definitions are formed by abstracting the subtasks. Finally, an atomic skill library is constructed via data collection and Vision-Language-Action (VLA) fine-tuning. As the atomic skill library expands dynamically with the three-wheel update strategy, the range of tasks it can cover grows naturally. In this way, our method shifts focus from end-to-end tasks to atomic skills, significantly reducing data costs while maintaining high performance and enabling efficient adaptation to new tasks. Extensive experiments in real-world settings demonstrate the effectiveness and efficiency of our approach.

arxiv情報

著者 Dongjiang Li,Bo Peng,Chang Li,Ning Qiao,Qi Zheng,Lei Sun,Yusen Qin,Bangguo Li,Yifeng Luan,Bo Wu,Yibing Zhan,Mingang Sun,Tong Xu,Lusong Li,Hui Shen,Xiaodong He
発行日 2025-02-05 08:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク