要約
私たちは、具体化された意思決定のために大規模言語モデル (LLM) を評価することを目指しています。
多くの研究では、具体化された環境での意思決定に LLM を活用してきましたが、LLM は通常、さまざまなドメイン、さまざまな目的に適用され、さまざまな入力と出力に基づいて構築されるため、そのパフォーマンスについて体系的な理解がまだ不足しています。
さらに、既存の評価は最終的な成功率のみに依存する傾向があり、LLM にどのような能力が欠けているのか、どこに問題があるのかを特定することが困難になり、その結果、身体化されたエージェントが LLM を効果的かつ選択的に活用することが妨げられています。
これらの制限に対処するために、さまざまなタイプのタスクと LLM ベースのモジュールの入出力仕様の形式化をサポートする一般化されたインターフェイス (エンボディド エージェント インターフェイス) を提案します。
具体的には、1) 状態目標と時間的に拡張された目標の両方を含む、具体化された意思決定タスクの広範なセット、2) 意思決定に一般的に使用される 4 つの LLM ベースのモジュール (目標解釈、サブ目標分解、アクション シーケンス、および
移行モデリング、および 3) 幻覚エラー、アフォーダンス エラー、さまざまなタイプの計画エラーなど、評価をさまざまなタイプのエラーに分類するきめ細かい指標のコレクション。
ベンチマークは、さまざまなサブタスクに対する LLM のパフォーマンスの包括的な評価を提供し、LLM を利用した組み込み型 AI システムの長所と短所を正確に特定し、組み込み型の意思決定において LLM を効果的かつ選択的に使用するための洞察を提供します。
要約(オリジナル)
We aim to evaluate Large Language Models (LLMs) for embodied decision making. While a significant body of work has been leveraging LLMs for decision making in embodied environments, we still lack a systematic understanding of their performance because they are usually applied in different domains, for different purposes, and built based on different inputs and outputs. Furthermore, existing evaluations tend to rely solely on a final success rate, making it difficult to pinpoint what ability is missing in LLMs and where the problem lies, which in turn blocks embodied agents from leveraging LLMs effectively and selectively. To address these limitations, we propose a generalized interface (Embodied Agent Interface) that supports the formalization of various types of tasks and input-output specifications of LLM-based modules. Specifically, it allows us to unify 1) a broad set of embodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpretation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics which break down evaluation into various types of errors, such as hallucination errors, affordance errors, various types of planning errors, etc. Overall, our benchmark offers a comprehensive assessment of LLMs’ performance for different subtasks, pinpointing the strengths and weaknesses in LLM-powered embodied AI systems, and providing insights for effective and selective use of LLMs in embodied decision making.
arxiv情報
著者 | Manling Li,Shiyu Zhao,Qineng Wang,Kangrui Wang,Yu Zhou,Sanjana Srivastava,Cem Gokmen,Tony Lee,Li Erran Li,Ruohan Zhang,Weiyu Liu,Percy Liang,Li Fei-Fei,Jiayuan Mao,Jiajun Wu |
発行日 | 2025-01-19 19:29:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google