要約
ビデオキャプションや検索を含むビデオの理解は、ビデオ言語モデル(VLM)にとって依然として大きな課題です。
既存のビデオ検索とキャプションベンチマークには、短い説明のみが含まれており、詳細なビデオ理解評価の能力を制限します。
この問題に対処するために、1,000ペアのビデオとヒューマンが注目した詳細なキャプションを備えた、細粒のビデオキャプションと検索のテストベンチマークであるCarebenchを提示します。
ユニークには、各ビデオの手動で分離された空間注釈と時間的注釈を提供します。
このデザインに基づいて、それぞれビデオ検索およびビデオキャプションタスクに合わせて調整された2つの評価メトリック、RebiasとCapstを紹介します。
これらのメトリックにより、VLMに固有の空間的および時間的バイアスを包括的に調査することができます。
さらに、統一されたフレームワークでビデオ検索とビデオキャプションの両方のタスクを処理するために、マルチモーダル言語モデル(MLLM)に基づいた簡単なベースラインを開発します。
2段階の監視された微調整(SFT)を実装することにより、MLLMの可能性のロックを完全に解除し、詳細なビデオ説明を生成するだけでなく、ビデオ機能を抽出することもできます。
驚くべきことに、実験結果は、検索のために設計されたクリップベースのモデルやビデオキャプションに熟練した人気のMLLMと比較して、ベースラインがきめ細かいビデオ検索とビデオの詳細なキャプションの両方で競争力のあるパフォーマンスを示していることを示しています。
要約(オリジナル)
Video understanding, including video captioning and retrieval, is still a great challenge for video-language models (VLMs). The existing video retrieval and caption benchmarks only include short descriptions, limits their ability of detailed video understanding evaluation. To address this problem, we present CaReBench, a testing benchmark for fine-grained video captioning and retrieval with 1,000 high-quality pairs of videos and human-annotated detailed captions. Uniquely, it provides manually separated spatial annotations and temporal annotations for each video. Based on this design, we introduce two evaluation metrics, ReBias and CapST, specifically tailored for video retrieval and video captioning tasks, respectively. These metrics enable a comprehensive investigation into the spatial and temporal biases inherent in VLMs. In addition, to handle both video retrieval and video captioning tasks in a unified framework, we develop a simple baseline based on a Multimodal Language Model (MLLM). By implementing a two-stage Supervised Fine-Tuning (SFT), we fully unlock the potential of MLLM, enabling it not only to generate detailed video descriptions but also to extract video features. Surprisingly, experimental results demonstrate that, compared to the CLIP-based models designed for retrieval and the popular MLLMs skilled in video captioning, our baseline shows competitive performance in both fine-grained video retrieval and video detailed captioning.
arxiv情報
著者 | Yifan Xu,Xinhao Li,Yichun Yang,Desen Meng,Rui Huang,Limin Wang |
発行日 | 2025-03-18 16:01:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google