要約
エゴセントリックビデオ質問応答(QA)では、モデルが長距離の時間的推論、一人称の視点、および頻繁なカメラの動きなどの専門的な課題を処理する必要があります。
このペーパーでは、QAEGO4Dから派生したエゴセントリックビデオの洗練されたデータセットであるQAEGO4DV2で、独自およびオープンソースのマルチモーダルラージモデル(MLLM)の両方を体系的に評価します。
4つの人気のMLLMS(GPT-4O、GEMINI-1.5-PRO、Video-Llava-7B、QWEN2-VL-7B-Instruct)は、OpenQAとCloseQA設定の両方のゼロショットおよび微調整されたアプローチを使用して評価されます。
QAEGO4D2のQAEGO4DV2を導入して、QAEGO4Dの注釈ノイズを緩和し、より信頼性の高い比較を可能にします。
我々の結果は、微調整されたビデオラバ-7BおよびQWEN2-VL-7B-Instructが新しい最先端のパフォーマンスを達成し、以前のベンチマークを最大2.6%ルージュ/メテオール(OpenQA用)および +13%精度(CloseQA)(CloseQA)の精度を超えることを示しています。
また、徹底的なエラー分析を提示し、空間推論におけるモデルの困難と微粒子認識 – 将来の改善のための重要な領域を示します。
要約(オリジナル)
Egocentric Video Question Answering (QA) requires models to handle long-horizon temporal reasoning, first-person perspectives, and specialized challenges like frequent camera movement. This paper systematically evaluates both proprietary and open-source Multimodal Large Language Models (MLLMs) on QaEgo4Dv2 – a refined dataset of egocentric videos derived from QaEgo4D. Four popular MLLMs (GPT-4o, Gemini-1.5-Pro, Video-LLaVa-7B and Qwen2-VL-7B-Instruct) are assessed using zero-shot and fine-tuned approaches for both OpenQA and CloseQA settings. We introduce QaEgo4Dv2 to mitigate annotation noise in QaEgo4D, enabling more reliable comparison. Our results show that fine-tuned Video-LLaVa-7B and Qwen2-VL-7B-Instruct achieve new state-of-the-art performance, surpassing previous benchmarks by up to +2.6% ROUGE/METEOR (for OpenQA) and +13% accuracy (for CloseQA). We also present a thorough error analysis, indicating the model’s difficulty in spatial reasoning and fine-grained object recognition – key areas for future improvement.
arxiv情報
著者 | Alkesh Patel,Vibhav Chitalia,Yinfei Yang |
発行日 | 2025-04-06 16:58:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google