要約
ロボットの動作合成、つまりマルチモーダルな入力を理解し、ロボットの正確な物理制御を生成する問題は、Embedded AI の重要な部分です。
高レベルの理解のためにマルチモーダルな大規模言語モデルを適用することに成功したにもかかわらず、さまざまなシナリオにわたって一般化を達成しながら、これらの概念的な理解を詳細なロボットの動作に変換することは依然として困難です。
この論文では、RoboCodeX と呼ばれる、一般化されたロボット動作合成のためのツリー構造のマルチモーダル コード生成フレームワークを提案します。
RoboCodeX は、人間による高レベルの命令を、アフォーダンスや安全性の制約などの物理的な設定で構成される複数のオブジェクト中心の操作ユニットに分解し、コード生成を適用してさまざまなロボット プラットフォーム全体に汎化機能を導入します。
概念的な理解と知覚的な理解を制御コマンドにマッピングする機能をさらに強化するために、事前トレーニングのために特殊なマルチモーダル推論データセットが収集され、教師あり微調整のために反復的な自己更新方法論が導入されています。
広範な実験により、RoboCodeX が 4 つの異なる種類の操作タスクと 1 つのナビゲーション タスクにおいて、シミュレーターと実際のロボットの両方で最先端のパフォーマンスを達成することが実証されました。
要約(オリジナル)
Robotic behavior synthesis, the problem of understanding multimodal inputs and generating precise physical control for robots, is an important part of Embodied AI. Despite successes in applying multimodal large language models for high-level understanding, it remains challenging to translate these conceptual understandings into detailed robotic actions while achieving generalization across various scenarios. In this paper, we propose a tree-structured multimodal code generation framework for generalized robotic behavior synthesis, termed RoboCodeX. RoboCodeX decomposes high-level human instructions into multiple object-centric manipulation units consisting of physical preferences such as affordance and safety constraints, and applies code generation to introduce generalization ability across various robotics platforms. To further enhance the capability to map conceptual and perceptual understanding into control commands, a specialized multimodal reasoning dataset is collected for pre-training and an iterative self-updating methodology is introduced for supervised fine-tuning. Extensive experiments demonstrate that RoboCodeX achieves state-of-the-art performance in both simulators and real robots on four different kinds of manipulation tasks and one navigation task.
arxiv情報
著者 | Yao Mu,Junting Chen,Qinglong Zhang,Shoufa Chen,Qiaojun Yu,Chongjian Ge,Runjian Chen,Zhixuan Liang,Mengkang Hu,Chaofan Tao,Peize Sun,Haibao Yu,Chao Yang,Wenqi Shao,Wenhai Wang,Jifeng Dai,Yu Qiao,Mingyu Ding,Ping Luo |
発行日 | 2024-02-25 15:31:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google