要約
ビデオの大規模なマルチモーダルモデル(ビデオLMMS)の大幅な進歩にもかかわらず、長型のビデオで効果的な時間的接地を達成することは、既存のモデルにとって依然として課題です。
この制限に対処するために、好みの学習を通じてビデオLMMの時間的接地能力を強化するために設計された新しいトレーニング後のフレームワークである時間的選好最適化(TPO)を提案します。
TPOは、2つの粒度でキュレーションされた選好データセットを活用することにより、モデルが適切に正確でない時間的応答を区別できるようにする自己トレーニングアプローチを採用しています。特定のビデオセグメントに焦点を当てた局所的な時間的接地と、拡張された時間的な時間的接地に焦点を当てた局所的な時間的接地を採用します。
ビデオシーケンス全体にわたる依存関係。
これらの優先データセットを最適化することにより、TPOは手動で注釈されたデータへの依存を減らしながら、時間的理解を大幅に向上させます。
2つの最先端のビデオLMMにわたるTPOの有効性を実証する3つの長型ビデオ理解ベンチマークに関する広範な実験。
特に、Llava-Video-TPOは、ビデオMMEベンチマークの主要な7Bモデルとしての地位を確立し、長さのビデオ理解における時間的推論を進めるためのスケーラブルで効率的なソリューションとしてTPOの可能性を強調しています。
プロジェクトページ:https://ruili33.github.io/tpo_website。
要約(オリジナル)
Despite significant advancements in video large multimodal models (video-LMMs), achieving effective temporal grounding in long-form videos remains a challenge for existing models. To address this limitation, we propose Temporal Preference Optimization (TPO), a novel post-training framework designed to enhance the temporal grounding capabilities of video-LMMs through preference learning. TPO adopts a self-training approach that enables models to differentiate between well-grounded and less accurate temporal responses by leveraging curated preference datasets at two granularities: localized temporal grounding, which focuses on specific video segments, and comprehensive temporal grounding, which captures extended temporal dependencies across entire video sequences. By optimizing on these preference datasets, TPO significantly enhances temporal understanding while reducing reliance on manually annotated data. Extensive experiments on three long-form video understanding benchmarks–LongVideoBench, MLVU, and Video-MME–demonstrate the effectiveness of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO establishes itself as the leading 7B model on the Video-MME benchmark, underscoring the potential of TPO as a scalable and efficient solution for advancing temporal reasoning in long-form video understanding. Project page: https://ruili33.github.io/tpo_website.
arxiv情報
著者 | Rui Li,Xiaohan Wang,Yuhui Zhang,Zeyu Wang,Serena Yeung-Levy |
発行日 | 2025-01-23 18:58:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google