ManiTaskGen: A Comprehensive Task Generator for Benchmarking and Improving Vision-Language Agents on Embodied Decision-Making

要約

任意のタスクを達成できる具体化されたエージェントを構築することは、具体化された人工的な一般情報(E-AGI)を達成するための中心的な目的です。
最近の作業はこのような一般的なロボットポリシーを進めていますが、それらのトレーニングと評価は、制限された指示とシナリオを含む特定のシーン内のタスクに限定されることがよくあります。
既存のベンチマークは、通常、いくつかのシーンで限られたタスクの手動注釈にも依存しています。
特定のシーン内の実行可能なタスクの全範囲を探索することは、評価のための広範なベンチマークとエージェント改善のための貴重なリソースの両方を提供するため、重要であると主張します。
この目的に向かって、特定のシーンに対して包括的で多様で実行可能なモバイル操作タスクを自動的に生成する新しいシステムであるManitaskgenを紹介します。
生成されたタスクには、プロセスベースの特定の命令(「オブジェクトをxからyに移動する」)と結果ベースの抽象的な指示(たとえば、「テーブルをクリアする」など)の両方を含みます。
シミュレートされたシーンと実世界の両方のシーンにマニタスクゲンを適用し、生成されたタスクの妥当性と多様性を示します。
次に、これらのタスクを活用してベンチマークを自動的に構築し、既存のビジョン言語モデル(VLM)に基づいて構築されたエージェントの具体化された意思決定機能を徹底的に評価します。
さらに、具体化された意思決定を強化するためにManitaskgenタスクを利用するシンプルでありながら効果的な方法を提案します。
全体として、この作業は、任意のシーンの普遍的なタスク生成フレームワークを提示し、具体化された意思決定エージェントのベンチマークと改善の両方を促進します。

要約(オリジナル)

Building embodied agents capable of accomplishing arbitrary tasks is a core objective towards achieving embodied artificial general intelligence (E-AGI). While recent work has advanced such general robot policies, their training and evaluation are often limited to tasks within specific scenes, involving restricted instructions and scenarios. Existing benchmarks also typically rely on manual annotation of limited tasks in a few scenes. We argue that exploring the full spectrum of feasible tasks within any given scene is crucial, as they provide both extensive benchmarks for evaluation and valuable resources for agent improvement. Towards this end, we introduce ManiTaskGen, a novel system that automatically generates comprehensive, diverse, feasible mobile manipulation tasks for any given scene. The generated tasks encompass both process-based, specific instructions (e.g., ‘move object from X to Y’) and outcome-based, abstract instructions (e.g., ‘clear the table’). We apply ManiTaskGen to both simulated and real-world scenes, demonstrating the validity and diversity of the generated tasks. We then leverage these tasks to automatically construct benchmarks, thoroughly evaluating the embodied decision-making capabilities of agents built upon existing vision-language models (VLMs). Furthermore, we propose a simple yet effective method that utilizes ManiTaskGen tasks to enhance embodied decision-making. Overall, this work presents a universal task generation framework for arbitrary scenes, facilitating both benchmarking and improvement of embodied decision-making agents.

arxiv情報

著者 Liu Dai,Haina Wang,Weikang Wan,Hao Su
発行日 2025-05-27 05:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク