VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models

要約

VideoCompは、微調整された時間的アライメントでビジョン言語モデル(VLM)を改善することを目的としたビデオテキストの構成性理解を進めるためのベンチマークおよび学習フレームワークを紹介します。
静的な画像テキストの構成性や孤立した単一イベントビデオに焦点を当てた既存のベンチマークとは異なり、ベンチマークターゲットは連続的なマルチイベントビデオでアライメントします。
一時的にローカライズされたイベントキャプション(ActivityNet-Captions、YouCook2など)を使用してビデオテキストデータセットを活用して、ActivityNet-CompとYouCook2-Compの2つの構成ベンチマークを構築します。
並べ替え、アクションワードの交換、部分的なキャプション、および組み合わせた混乱など、微妙な時間的破壊を伴う挑戦的な負のサンプルを作成します。
これらのベンチマークは、拡張されたまとまりのあるビデオテキストシーケンス全体で、モデルの組成感度を包括的にテストします。
モデルのパフォーマンスを向上させるために、一時的に正確なペアとの整合性を強化し、ますます混乱しているペアと徐々に罰則を科す階層的なペアワイズ優先損失を提案し、きめ細かい組成学習を促進します。
密集した注釈付きビデオデータの限られた可用性を軽減するために、短いビデオキャプションペアを連結してマルチイベントシーケンスをシミュレートする前提条件戦略を導入します。
ベンチマークでビデオテキストの基礎モデルと大規模なマルチモーダルモデル(LMM)を評価し、構成性の改善のために強みと領域の両方を特定します。
全体として、私たちの研究は、細粒の一時的に一貫性のあるビデオテキストアライメントを達成する際のモデル機能を評価および強化するための包括的なフレームワークを提供します。

要約(オリジナル)

We introduce VideoComp, a benchmark and learning framework for advancing video-text compositionality understanding, aimed at improving vision-language models (VLMs) in fine-grained temporal alignment. Unlike existing benchmarks focused on static image-text compositionality or isolated single-event videos, our benchmark targets alignment in continuous multi-event videos. Leveraging video-text datasets with temporally localized event captions (e.g. ActivityNet-Captions, YouCook2), we construct two compositional benchmarks, ActivityNet-Comp and YouCook2-Comp. We create challenging negative samples with subtle temporal disruptions such as reordering, action word replacement, partial captioning, and combined disruptions. These benchmarks comprehensively test models’ compositional sensitivity across extended, cohesive video-text sequences. To improve model performance, we propose a hierarchical pairwise preference loss that strengthens alignment with temporally accurate pairs and gradually penalizes increasingly disrupted ones, encouraging fine-grained compositional learning. To mitigate the limited availability of densely annotated video data, we introduce a pretraining strategy that concatenates short video-caption pairs to simulate multi-event sequences. We evaluate video-text foundational models and large multimodal models (LMMs) on our benchmark, identifying both strengths and areas for improvement in compositionality. Overall, our work provides a comprehensive framework for evaluating and enhancing model capabilities in achieving fine-grained, temporally coherent video-text alignment.

arxiv情報

著者 Dahun Kim,AJ Piergiovanni,Ganesh Mallya,Anelia Angelova
発行日 2025-04-10 10:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR パーマリンク