要約
身体化された操作は、身体化された人工知能の領域における基本的な能力である。現在の具現化された操作モデルは、特定の設定において一定の一般化を示すものの、実世界のシナリオが複雑で多様であるため、新しい環境やタスクでは苦戦を強いられる。従来のエンド・ツー・エンドのデータ収集とトレーニング方法は、多大なデータ要求につながる。エンドツーエンドのタスクを再利用可能なアトミックスキルに分解することで、データ要件を削減し、タスク実行の成功率を向上させることができる。しかし、既存の方法は、動的に更新できない定義済みのスキルセットに制限されている。この問題に対処するために、複雑なタスクの実行を可能にする一般的なスキルを含むアトミックスキルライブラリを構築する3輪のデータ駆動型手法を導入する。VLP(視覚言語プランニング)を用いてタスクをサブタスクに分割する。次に、サブタスクを抽象化することにより、アトミックスキル定義を形成する。最後に、データ収集とVLA(Vision-Language-Action)の微調整により、アトミックスキルライブラリを構築する。アトミックスキルライブラリは3輪更新戦略によって動的に拡張されるため、カバーできるタスクの範囲は自然に拡大する。このように、我々の手法はエンドツーエンドのタスクからアトミックスキルにフォーカスを移すことで、高いパフォーマンスを維持しながらデータコストを大幅に削減し、新しいタスクへの効率的な適応を可能にする。実世界での広範な実験により、我々のアプローチの有効性と効率性が実証された。
要約(オリジナル)
Embodied manipulation is a fundamental ability in the realm of embodied artificial intelligence. Although current embodied manipulation models show certain generalizations in specific settings, they struggle in new environments and tasks due to the complexity and diversity of real-world scenarios. The traditional end-to-end data collection and training manner leads to significant data demands. Decomposing end-to-end tasks into reusable atomic skills helps reduce data requirements and improve task execution success rate. However, existing methods are limited by predefined skill sets that cannot be dynamically updated. To address the issue, we introduce a three-wheeled data-driven method to build an atomic skill library, which contains general skills enabling the execution of complex tasks. We divide tasks into subtasks using the Vision-Language Planning (VLP). Then, atomic skill definitions are formed by abstracting the subtasks. Finally, an atomic skill library is constructed via data collection and Vision-Language-Action (VLA) fine-tuning. As the atomic skill library expands dynamically with the three-wheel update strategy, the range of tasks it can cover grows naturally. In this way, our method shifts focus from end-to-end tasks to atomic skills, significantly reducing data costs while maintaining high performance and enabling efficient adaptation to new tasks. Extensive experiments in real-world settings demonstrate the effectiveness and efficiency of our approach.
arxiv情報
著者 | Dongjiang Li,Bo Peng,Chang Li,Ning Qiao,Qi Zheng,Lei Sun,Yusen Qin,Bangguo Li,Yifeng Luan,Yibing Zhan,Mingang Sun,Tong Xu,Lusong Li,Hui Shen,Xiaodong He |
発行日 | 2025-02-03 10:39:08+00:00 |
arxivサイト | arxiv_id(pdf) |