要約
汎用の身体エージェントは、ユーザーの自然な指示や意図を理解し、普遍的なタスクを完了するために正確に動作するように設計されています。
最近、基礎モデル、特に視覚-言語-動作モデル (VLA) に基づく手法が、言語条件付き操作 (LCM) タスクをうまく解決できる大きな可能性を示しています。
ただし、既存のベンチマークは、VLA および関連アルゴリズムのニーズを適切に満たしていません。
LLM のコンテキストでこのような汎用タスクをより適切に定義し、VLA での研究を進めるために、ユニバーサル LCM タスク学習を評価するためのオープンソース ベンチマークである VLABench を紹介します。
VLABench は、慎重に設計された 100 のタスク カテゴリを提供し、タスクの各カテゴリと合計 2000 以上のオブジェクトに強力なランダム化が施されています。
VLABench は、次の 4 つの主要な側面で以前のベンチマークよりも優れています。1) 世界の知識と常識の伝達を必要とするタスク、2) テンプレートではなく暗黙的な人間の意図を伴う自然言語命令、3) 複数ステップの推論を必要とする長期的なタスク、4)
アクションポリシーと言語モデル機能の両方の評価。
このベンチマークは、メッシュとテクスチャの理解、空間関係、意味論的な指導、物理法則、知識の伝達と推論などを含む複数の能力を評価します。下流の微調整をサポートするために、ヒューリスティックなスキルを組み込んだ自動化されたフレームワークを通じて収集された高品質のトレーニング データを提供し、
事前情報。
実験結果は、現在の最先端の事前トレーニング済み VLA と VLM に基づくワークフローの両方が、タスクにおいて課題に直面していることを示しています。
要約(オリジナル)
General-purposed embodied agents are designed to understand the users’ natural instructions or intentions and act precisely to complete universal tasks. Recently, methods based on foundation models especially Vision-Language-Action models (VLAs) have shown a substantial potential to solve language-conditioned manipulation (LCM) tasks well. However, existing benchmarks do not adequately meet the needs of VLAs and relative algorithms. To better define such general-purpose tasks in the context of LLMs and advance the research in VLAs, we present VLABench, an open-source benchmark for evaluating universal LCM task learning. VLABench provides 100 carefully designed categories of tasks, with strong randomization in each category of task and a total of 2000+ objects. VLABench stands out from previous benchmarks in four key aspects: 1) tasks requiring world knowledge and common sense transfer, 2) natural language instructions with implicit human intentions rather than templates, 3) long-horizon tasks demanding multi-step reasoning, and 4) evaluation of both action policies and language model capabilities. The benchmark assesses multiple competencies including understanding of mesh\&texture, spatial relationship, semantic instruction, physical laws, knowledge transfer and reasoning, etc. To support the downstream finetuning, we provide high-quality training data collected via an automated framework incorporating heuristic skills and prior information. The experimental results indicate that both the current state-of-the-art pretrained VLAs and the workflow based on VLMs face challenges in our tasks.
arxiv情報
著者 | Shiduo Zhang,Zhe Xu,Peiju Liu,Xiaopeng Yu,Yuan Li,Qinghui Gao,Zhaoye Fei,Zhangyue Yin,Zuxuan Wu,Yu-Gang Jiang,Xipeng Qiu |
発行日 | 2024-12-24 06:03:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google