要約
1 時間のビデオ言語理解のためのベンチマーク データセットである HourVideo を紹介します。
私たちのデータセットは、要約、知覚 (想起、追跡)、視覚的推論 (空間的、時間的、予測的、因果的、反事実的) タスク、およびナビゲーション (部屋から部屋への移動、オブジェクトの検索) タスクで構成される新しいタスク スイートで構成されています。
HourVideo には、Ego4D データセットから手動で厳選された 500 の自己中心的なビデオが含まれており、長さは 20 ~ 120 分で、12,976 の高品質の 5 者択一の質問が特徴です。
ベンチマークの結果から、GPT-4 や LLaVA-NeXT を含むマルチモーダル モデルは、ランダムな偶然に比べてわずかな改善を達成していることが明らかになりました。
まったく対照的に、人間の専門家のパフォーマンスは、最先端のロングコンテキスト マルチモーダル モデルである Gemini Pro 1.5 (85.0% 対 37.3%) を大幅に上回り、マルチモーダル機能における大きなギャップが浮き彫りになっています。
ベンチマーク、評価ツールキット、プロンプト、ドキュメントは https://hourvideo.stanford.edu から入手できます。
要約(オリジナル)
We present HourVideo, a benchmark dataset for hour-long video-language understanding. Our dataset consists of a novel task suite comprising summarization, perception (recall, tracking), visual reasoning (spatial, temporal, predictive, causal, counterfactual), and navigation (room-to-room, object retrieval) tasks. HourVideo includes 500 manually curated egocentric videos from the Ego4D dataset, spanning durations of 20 to 120 minutes, and features 12,976 high-quality, five-way multiple-choice questions. Benchmarking results reveal that multimodal models, including GPT-4 and LLaVA-NeXT, achieve marginal improvements over random chance. In stark contrast, human experts significantly outperform the state-of-the-art long-context multimodal model, Gemini Pro 1.5 (85.0% vs. 37.3%), highlighting a substantial gap in multimodal capabilities. Our benchmark, evaluation toolkit, prompts, and documentation are available at https://hourvideo.stanford.edu
arxiv情報
著者 | Keshigeyan Chandrasegaran,Agrim Gupta,Lea M. Hadzic,Taran Kota,Jimming He,Cristóbal Eyzaguirre,Zane Durante,Manling Li,Jiajun Wu,Li Fei-Fei |
発行日 | 2024-11-07 18:59:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google