要約
マルチモーダル大手言語モデル(MLLMS)の出現により、エゴセントリックビジョンアプリケーションの突破口が駆動されました。
これらのアプリケーションは、ユーザーが動的で乱雑な環境でツールと対話するため、オブジェクトの持続的でコンテキストを意識した理解を必要とします。
ただし、既存の具体化されたベンチマークは主に静的シーンの探索に焦点を当て、ユーザーの相互作用から生じる動的な変化の評価を無視しながら、オブジェクトの外観と空間的属性を強調します。
このギャップに対処するために、動的なエゴセントリックシナリオでオブジェクト中心の具体化された認知を体系的に評価するように設計された革新的なベンチマークであるEOCベンチを紹介します。
特に、EOCベンチには、過去、現在、および未来の3つの時間的カテゴリに分類された3,277の細心の注釈付きQAペアを備えており、11の微調整された評価寸法と3つの視覚オブジェクト参照タイプをカバーしています。
徹底的な評価を確保するために、4種類の質問を備えた混合フォーマットの人間のループ注釈フレームワークを開発し、オープンエンドの時間評価のための新しいマルチスケールの時間精度メトリックを設計します。
EOCベンチに基づいて、さまざまな独自、オープンソース、およびオブジェクトレベルのMLLMの包括的な評価を実施します。
EOCベンチは、MLLMの具体化されたオブジェクト認知機能を進めるための重要なツールとして機能し、具体化されたシステムの信頼できるコアモデルを開発するための堅牢な基盤を確立します。
要約(オリジナル)
The emergence of multimodal large language models (MLLMs) has driven breakthroughs in egocentric vision applications. These applications necessitate persistent, context-aware understanding of objects, as users interact with tools in dynamic and cluttered environments. However, existing embodied benchmarks primarily focus on static scene exploration, emphasizing object’s appearance and spatial attributes while neglecting the assessment of dynamic changes arising from users’ interactions. To address this gap, we introduce EOC-Bench, an innovative benchmark designed to systematically evaluate object-centric embodied cognition in dynamic egocentric scenarios. Specially, EOC-Bench features 3,277 meticulously annotated QA pairs categorized into three temporal categories: Past, Present, and Future, covering 11 fine-grained evaluation dimensions and 3 visual object referencing types. To ensure thorough assessment, we develop a mixed-format human-in-the-loop annotation framework with four types of questions and design a novel multi-scale temporal accuracy metric for open-ended temporal evaluation. Based on EOC-Bench, we conduct comprehensive evaluations of various proprietary, open-source, and object-level MLLMs. EOC-Bench serves as a crucial tool for advancing the embodied object cognitive capabilities of MLLMs, establishing a robust foundation for developing reliable core models for embodied systems.
arxiv情報
| 著者 | Yuqian Yuan,Ronghao Dang,Long Li,Wentong Li,Dian Jiao,Xin Li,Deli Zhao,Fan Wang,Wenqiao Zhang,Jun Xiao,Yueting Zhuang |
| 発行日 | 2025-06-05 17:44:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google