要約
モデルが自然言語の指示を正確に理解して従わせ、世界の知識と一致する動作を実行できるようにする方法を検討することは、ロボット操作における重要な課題です。
これには主に、人間のあいまいな命令推論と物理的知識の追従が含まれます。
したがって、身体化された諜報エージェントは、トレーニング データから世界の知識をモデル化する能力を備えていなければなりません。
しかし、既存の視覚および言語ロボット操作方法のほとんどは、主に現実性の低いシミュレータおよび言語設定で動作し、世界知識の明示的なモデリングが不足しています。
このギャップを埋めるために、Surfer と呼ばれる斬新でシンプルなロボット操作フレームワークを導入します。
これはワールド モデルに基づいており、ロボットの操作をビジュアル シーンの状態伝達として扱い、アクションとシーンの 2 つの部分に分離します。
次に、マルチモーダル情報におけるアクションとシーン予測の明示的なモデリングによって、新しい命令と新しいシーンに関するモデルの一般化能力が強化されます。
フレームワークに加えて、MuJoCo 物理エンジンに基づいた完全な物理実行をサポートするロボット操作シミュレーターも構築しました。
デモンストレーショントレーニングデータとテストデータを自動的に生成できるため、人件費を効果的に削減できます。
言語理解と物理的実行の観点からロボット操作モデルの包括的かつ体系的な評価を行うために、SeaWave と呼ばれる進歩的な推論タスクを備えたロボット操作ベンチマークも作成しました。
これには 4 つのレベルの進歩的な推論タスクが含まれており、マルチモーダル環境における組み込み AI エージェントに標準化されたテスト プラットフォームを提供できます。
Surfer は、定義された 4 つのレベルの操作タスクで平均して 54.74% の成功率を達成し、最高のベースライン パフォーマンスの 47.64% を上回りました。
要約(オリジナル)
Considering how to make the model accurately understand and follow natural language instructions and perform actions consistent with world knowledge is a key challenge in robot manipulation. This mainly includes human fuzzy instruction reasoning and the following of physical knowledge. Therefore, the embodied intelligence agent must have the ability to model world knowledge from training data. However, most existing vision and language robot manipulation methods mainly operate in less realistic simulator and language settings and lack explicit modeling of world knowledge. To bridge this gap, we introduce a novel and simple robot manipulation framework, called Surfer. It is based on the world model, treats robot manipulation as a state transfer of the visual scene, and decouples it into two parts: action and scene. Then, the generalization ability of the model on new instructions and new scenes is enhanced by explicit modeling of the action and scene prediction in multi-modal information. In addition to the framework, we also built a robot manipulation simulator that supports full physics execution based on the MuJoCo physics engine. It can automatically generate demonstration training data and test data, effectively reducing labor costs. To conduct a comprehensive and systematic evaluation of the robot manipulation model in terms of language understanding and physical execution, we also created a robotic manipulation benchmark with progressive reasoning tasks, called SeaWave. It contains 4 levels of progressive reasoning tasks and can provide a standardized testing platform for embedded AI agents in multi-modal environments. On average, Surfer achieved a success rate of 54.74% on the defined four levels of manipulation tasks, exceeding the best baseline performance of 47.64%.
arxiv情報
著者 | Pengzhen Ren,Kaidong Zhang,Hetao Zheng,Zixuan Li,Yuhang Wen,Fengda Zhu,Mas Ma,Xiaodan Liang |
発行日 | 2024-03-20 13:18:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google