FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning

要約

大きなビジョン言語モデル(LVLMS)の急速な進歩にもかかわらず、既存のビデオキャプションベンチマークは、人間の理解との整合性を評価する際に限られたままです。
ほとんどは、ビデオごとの単一の注釈と語彙的類似性ベースのメトリックに依存しており、人間の知覚の変動とイベントの認知的重要性を捉えられません。
これらの制限は、コヒーレント、完全、および人間に合わせた説明を生成する際のモデル機能の正確な診断を妨げます。
これに対処するために、評価に合わせて調整された人間中心のベンチマークであるFiova(5インチのビデオアノテーション)を紹介します。
3,002個の実世界のビデオ(それぞれ約33.6秒)で構成され、それぞれが5つのアノテーターによって独立して注釈が付けられています。
この設計により、セマンティックの多様性と主観間契約のモデリングが可能になり、ヒューマンマシンアライメントを測定するためのより豊かな基盤を提供します。
さらに、Antator Consensusに由来する認知重みを組み込んだイベントレベルの評価メトリックであるFiova-DQをさらに提案し、イベントの関連性とセマンティックカバレッジの微細な評価を提供します。
Fiovaを活用すると、9つの代表的なLVLMSの包括的な評価を実施し、アノテーター間変動(CV)に基づいて複雑さを認識した分析フレームワークを導入します。
これにより、難易度レベル全体の一貫性のギャップが明らかになり、イベントの過小説明やテンプレートの収束などの構造的な問題を識別します。
私たちの結果は、さまざまな複雑さの下でLVLMの行動を理解するためのFiovaの診断価値を強調し、長いビデオキャプションで認知的に整合した評価の新しい基準を設定します。
ベンチマーク、注釈、メトリック、およびモデル出力は、ビデオ理解における将来の評価駆動型の研究をサポートするために公開されています。
詳細については、https://huuuuusy.github.io/fiova/をご覧ください。

要約(オリジナル)

Despite rapid progress in large vision-language models (LVLMs), existing video caption benchmarks remain limited in evaluating their alignment with human understanding. Most rely on a single annotation per video and lexical similarity-based metrics, failing to capture the variability in human perception and the cognitive importance of events. These limitations hinder accurate diagnosis of model capabilities in producing coherent, complete, and human-aligned descriptions. To address this, we introduce FIOVA (Five-In-One Video Annotations), a human-centric benchmark tailored for evaluation. It comprises 3,002 real-world videos (about 33.6s each), each annotated independently by five annotators. This design enables modeling of semantic diversity and inter-subjective agreement, offering a richer foundation for measuring human-machine alignment. We further propose FIOVA-DQ, an event-level evaluation metric that incorporates cognitive weights derived from annotator consensus, providing fine-grained assessment of event relevance and semantic coverage. Leveraging FIOVA, we conduct a comprehensive evaluation of nine representative LVLMs and introduce a complexity-aware analysis framework based on inter-annotator variation (CV). This reveals consistency gaps across difficulty levels and identifies structural issues such as event under-description and template convergence. Our results highlight FIOVA’s diagnostic value for understanding LVLM behavior under varying complexity, setting a new standard for cognitively aligned evaluation in long-video captioning. The benchmark, annotations, metric, and model outputs are publicly released to support future evaluation-driven research in video understanding. More detailed information can be found at https://huuuuusy.github.io/fiova/.

arxiv情報

著者 Shiyu Hu,Xuchen Li,Xuzhao Li,Jing Zhang,Yipei Wang,Xin Zhao,Kang Hao Cheong
発行日 2025-05-19 15:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク