要約
マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、Embedded AI のアプリケーションに新たな道が開かれました。
以前の作品である EgoThink を基にして、自己中心的なビデオ理解機能を評価するための包括的なベンチマークである VidEgoThink を紹介します。
MLLM と身体化 AI における低レベル制御の間のギャップを埋めるために、ビデオ質問応答、階層計画、視覚的グラウンディング、報酬モデリングという 4 つの主要な相互関連タスクを設計します。
手動アノテーションのコストを最小限に抑えるために、GPT-4o の事前知識とマルチモーダル機能を活用して、Ego4D データセットに基づく自動データ生成パイプラインを開発しました。
次に、3 人のヒューマン アノテーターが生成されたデータをフィルタリングして多様性と品質を確保し、その結果 VidEgoThink ベンチマークが作成されます。
API ベースの MLLM、オープンソースの画像ベースの MLLM、オープンソースのビデオベースの MLLM の 3 種類のモデルを使用して広範な実験を行っています。
実験結果は、GPT-4o を含むすべての MLLM が、自己中心的なビデオの理解に関連するすべてのタスクにわたってパフォーマンスが低いことを示しています。
これらの調査結果は、Embedded AI の一人称視点のシナリオに効果的に適用するには、基礎モデルに依然として大幅な進歩が必要であることを示唆しています。
結論として、VidEgoThink は、人間の能力に似た自己中心的なビジョンのために MLLM を採用する研究傾向を反映しており、複雑な現実世界の環境における積極的な観察と対話を可能にします。
要約(オリジナル)
Recent advancements in Multi-modal Large Language Models (MLLMs) have opened new avenues for applications in Embodied AI. Building on previous work, EgoThink, we introduce VidEgoThink, a comprehensive benchmark for evaluating egocentric video understanding capabilities. To bridge the gap between MLLMs and low-level control in Embodied AI, we design four key interrelated tasks: video question-answering, hierarchy planning, visual grounding and reward modeling. To minimize manual annotation costs, we develop an automatic data generation pipeline based on the Ego4D dataset, leveraging the prior knowledge and multimodal capabilities of GPT-4o. Three human annotators then filter the generated data to ensure diversity and quality, resulting in the VidEgoThink benchmark. We conduct extensive experiments with three types of models: API-based MLLMs, open-source image-based MLLMs, and open-source video-based MLLMs. Experimental results indicate that all MLLMs, including GPT-4o, perform poorly across all tasks related to egocentric video understanding. These findings suggest that foundation models still require significant advancements to be effectively applied to first-person scenarios in Embodied AI. In conclusion, VidEgoThink reflects a research trend towards employing MLLMs for egocentric vision, akin to human capabilities, enabling active observation and interaction in the complex real-world environments.
arxiv情報
著者 | Sijie Cheng,Kechen Fang,Yangyang Yu,Sicheng Zhou,Bohao Li,Ye Tian,Tingguang Li,Lei Han,Yang Liu |
発行日 | 2024-10-15 14:08:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google