EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments

要約

自然言語によって制御された自律的なホームロボットの開発は、長い間人類の追求でした。
大規模な言語モデル(LLMS)と具体化されたインテリジェンスの進歩により、この目標が近づいていますが、いくつかの課題は持続します。より複雑なロボットタスクの統一ベンチマークの欠如、限られた評価方法とメトリック、LLMSとモバイル操作の軌跡間のデータの互換性。
これらの問題に対処するために、オープン環境で具体化されたモバイル操作(EMMOE)を提案します。これは、エージェントがユーザーの指示を解釈し、連続空間で毎日のタスクを実行する必要があるベンチマークです。
Emmoeは、より多様な評価のための3つの新しいメトリックとともに、高レベルと低レベルの具体化されたタスクを統合フレームワークにシームレスに統合します。
さらに、さまざまなタスク属性、詳細なプロセスアノテーション、障害後の再プラン、およびLLMトレーニングの2つのサブデータセットを特徴とする〜\データセットを収集します。
さらに、私たちは〜\モデルを設計し、洗練されたエージェントシステムは、直接優先最適化(DPO)、軽い加重ナビゲーションおよび操作モデル、および複数のエラー検出メカニズムを備えたLLMで構成されています。
最後に、〜\モデルのパフォーマンスとさまざまなモデルとポリシーの評価を示します。

要約(オリジナル)

Developing autonomous home robots controlled by natural language has long been a pursuit of humanity. While advancements in large language models (LLMs) and embodied intelligence make this goal closer, several challenges persist: the lack of a unified benchmark for more complex robot tasks, limited evaluation methods and metrics, data incompatibility between LLMs and mobile manipulation trajectories. To address these issues, we propose Embodied Mobile Manipulation in Open Environments (EMMOE), a benchmark that requires agents to interpret user instructions and execute long-horizon everyday tasks in continuous space. EMMOE seamlessly integrates high-level and low-level embodied tasks into a unified framework, along with three new metrics for more diverse assessment. Additionally, we collect~\dataset, which features in various task attributes, detailed process annotations, re-plans after failures, and two sub-datasets for LLM training. Furthermore, we design~\model, a sophisticated agent system consists of LLM with Direct Preference Optimization (DPO), light weighted navigation and manipulation models, and multiple error detection mechanisms. Finally, we demonstrate~\model’s performance and evaluations of different models and policies.

arxiv情報

著者 Dongping Li,Tielong Cai,Tianci Tang,Wenhao Chai,Katherine Rose Driggs-Campbell,Gaoang Wang
発行日 2025-05-15 01:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク