要約
身体化された AI の研究は、ロボット操作の開発を大きく促進しました。
ただし、ベンチマークの構築、マルチモーダルな認識と意思決定、物理的な実行など、さまざまな側面で依然として大きな課題に直面しています。
これまでのロボット操作シミュレーターは主に、マルチモーダル環境における物理的な操作と言語命令の複雑さの間のバランスを無視しながら、操作の種類やオブジェクトの種類を豊かにすることを目的として設計されていました。
この論文は、新しいロボット操作シミュレータを提案し、SeaWave と呼ばれる漸進的推論タスクを備えた包括的かつ体系的なロボット操作ベンチマーク (すなわち、漸進的推論ベンチマーク) を構築します。
これは、マルチモーダル環境における組み込み AI エージェント用の標準テスト プラットフォームを提供し、人間の自然言語命令の 4 つのレベルを同時に評価および実行できます。
これまでの世界モデルベースのロボット操作研究には、マルチモーダル環境における複雑な命令の認識と意思決定に関する研究が不足していました。
この目的を達成するために、我々は、DamWorld と呼ばれる、クロスモーダルなロボット操作に合わせた新しい世界モデルを提案します。
具体的には、DamWorld は、現在のビジュアル シーンと、自然言語命令に基づいて予測された実行アクションを入力として受け取り、次のアクション フレームを使用してワールド モデルの出力を監視し、モデルにワールドの知識と一致するロボット操作の学習を強制します。
有名なベースライン (RT-1 など) と比較して、DamWorld は 4 つのレベルの進歩的推論タスクで操作の成功率を平均 5.6% 向上させます。
最も困難なレベル 4 の操作タスクでも、DamWorld は以前の作品と比較して 9.0% 改善されたことは注目に値します。
要約(オリジナル)
The research on embodied AI has greatly promoted the development of robot manipulation. However, it still faces significant challenges in various aspects such as benchmark construction, multi-modal perception and decision-making, and physical execution. Previous robot manipulation simulators were primarily designed to enrich manipulation types and types of objects while neglecting the balance between physical manipulation and language instruction complexity in multi-modal environments. This paper proposes a new robot manipulation simulator and builds a comprehensive and systematic robot manipulation benchmark with progressive reasoning tasks called SeaWave (i.e., a progressive reasoning benchmark). It provides a standard test platform for embedded AI agents in a multi-modal environment, which can evaluate and execute four levels of human natural language instructions at the same time. Previous world model-based robot manipulation work lacked research on the perception and decision-making of complex instructions in multi-modal environments. To this end, we propose a new world model tailored for cross-modal robot manipulation called DamWorld. Specifically, DamWorld takes the current visual scene and predicted execution actions based on natural language instructions as input, and uses the next action frame to supervise the output of the world model to force the model to learn robot manipulation consistent with world knowledge. Compared with the renowned baselines (e.g., RT-1), our DamWorld improves the manipulation success rate by 5.6% on average on four levels of progressive reasoning tasks. It is worth noting that on the most challenging level 4 manipulation task, DamWorld still improved by 9.0% compared to prior works.
arxiv情報
著者 | Pengzhen Ren,Kaidong Zhang,Hetao Zheng,Zixuan Li,Yuhang Wen,Fengda Zhu,Mas Ma,Xiaodan Liang |
発行日 | 2024-01-08 13:29:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google