要約
マルチモーダル大手言語モデル(MLLM)は大きな進歩を示しており、具体化されたエージェントに有望な未来を提供しています。
MLLMを評価するための既存のベンチマークは、主に静的画像またはビデオを利用して、非対話シナリオに評価を制限します。
一方、既存の具体化されたAIベンチマークはタスク固有であり、MLLMの具体化された機能を適切に評価しないほど多様ではありません。
これに対処するために、具体化されたタスクを備えたMLLMの包括的でインタラクティブな評価ベンチマークであるEmbodiedevalを提案します。
EmbodiedEvalは、125のさまざまな3Dシーン内の328の異なるタスクを特徴としており、それぞれが厳密に選択され、注釈が付けられています。
MLLMに合わせて調整された統一シミュレーションと評価フレームワーク内で、多様性が大幅に向上した既存の具体化されたAIタスクの幅広いスペクトルをカバーしています。
タスクは、ナビゲーション、オブジェクトの相互作用、社会的相互作用、属性質問の回答、およびエージェントのさまざまな機能を評価するための空間的質問の5つのカテゴリに編成されます。
Embodiedevalの最先端のMLLMを評価し、具体化されたタスクの人間レベルと比較して、それらが大きな不足を持っていることを発見しました。
私たちの分析は、具体化された機能における既存のMLLMの制限を示しており、将来の開発に関する洞察を提供します。
https://github.com/thunlp/embodiedevalですべての評価データとシミュレーションフレームワークをオープンソースします。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have shown significant advancements, providing a promising future for embodied agents. Existing benchmarks for evaluating MLLMs primarily utilize static images or videos, limiting assessments to non-interactive scenarios. Meanwhile, existing embodied AI benchmarks are task-specific and not diverse enough, which do not adequately evaluate the embodied capabilities of MLLMs. To address this, we propose EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied 3D scenes, each of which is rigorously selected and annotated. It covers a broad spectrum of existing embodied AI tasks with significantly enhanced diversity, all within a unified simulation and evaluation framework tailored for MLLMs. The tasks are organized into five categories: navigation, object interaction, social interaction, attribute question answering, and spatial question answering to assess different capabilities of the agents. We evaluated the state-of-the-art MLLMs on EmbodiedEval and found that they have a significant shortfall compared to human level on embodied tasks. Our analysis demonstrates the limitations of existing MLLMs in embodied capabilities, providing insights for their future development. We open-source all evaluation data and simulation framework at https://github.com/thunlp/EmbodiedEval.
arxiv情報
著者 | Zhili Cheng,Yuge Tu,Ran Li,Shiqi Dai,Jinyi Hu,Shengding Hu,Jiahao Li,Yang Shi,Tianyu Yu,Weize Chen,Lei Shi,Maosong Sun |
発行日 | 2025-04-11 04:26:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google