From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos

要約

Composed Video Retrieval(COVR)は、クエリビデオと、意図した変更を説明する修正テキストを指定したターゲットビデオを取得します。
既存のCOVRベンチマークは、外観のシフトまたは粗いイベントの変更を強調するため、微妙でペースの速い時間的違いをキャプチャする能力をテストしません。
一時的に細いCOVR専用の最初の大規模なベンチマークであるTF-COVRを紹介します。
TF-COVRは体操とダイビングに焦点を当てており、FineGymとFinedivingから描かれた180kのトリプレットを提供しています。
時間的側面に焦点を当てた以前のCOVRベンチマークは、各クエリを同じビデオから取得した単一のターゲットセグメントにリンクし、実用的な有用性を制限します。
TF-COVRでは、代わりに、異なるビデオから描かれたクリップ間のラベルの違いをLLMにプロンプ​​トすることにより、各<クエリ、変更>ペアを作成します。
したがって、すべてのペアは、スポーツハイライト生成などの実際のタスクを反映して、複数の有効なターゲットビデオ(平均3.9)に関連付けられています。
これらの時間的ダイナミクスをモデル化するために、簡潔な2段階のトレーニングフレームワークであるTF-COVR-Baseを提案します。(i)一時的に識別的な埋め込みを取得するためのきめ細かいアクション分類に関するビデオエンコーダーを事前訓練します。
(ii)コンポーティングされたクエリを、対照的な学習を使用して候補ビデオに合わせます。
ゼロショットと微調整体制の両方で、一時的に細粒化された構成検索で画像、ビデオ、および一般的なマルチモーダル埋め込み(GME)モデルの最初の包括的な研究を実施します。
TF-COVRでは、TF-COVR-Baseはゼロショットマップ@50@50(LanguageBind)から7.51に改善し、微調整後、最先端を19.83から25.82に引き上げます。

要約(オリジナル)

Composed Video Retrieval (CoVR) retrieves a target video given a query video and a modification text describing the intended change. Existing CoVR benchmarks emphasize appearance shifts or coarse event changes and therefore do not test the ability to capture subtle, fast-paced temporal differences. We introduce TF-CoVR, the first large-scale benchmark dedicated to temporally fine-grained CoVR. TF-CoVR focuses on gymnastics and diving and provides 180K triplets drawn from FineGym and FineDiving. Previous CoVR benchmarks focusing on temporal aspect, link each query to a single target segment taken from the same video, limiting practical usefulness. In TF-CoVR, we instead construct each pair by prompting an LLM with the label differences between clips drawn from different videos; every pair is thus associated with multiple valid target videos (3.9 on average), reflecting real-world tasks such as sports-highlight generation. To model these temporal dynamics we propose TF-CoVR-Base, a concise two-stage training framework: (i) pre-train a video encoder on fine-grained action classification to obtain temporally discriminative embeddings; (ii) align the composed query with candidate videos using contrastive learning. We conduct the first comprehensive study of image, video, and general multimodal embedding (GME) models on temporally fine-grained composed retrieval in both zero-shot and fine-tuning regimes. On TF-CoVR, TF-CoVR-Base improves zero-shot mAP@50 from 5.92 (LanguageBind) to 7.51, and after fine-tuning raises the state-of-the-art from 19.83 to 25.82.

arxiv情報

著者 Animesh Gupta,Jay Parmar,Ishan Rajendrakumar Dave,Mubarak Shah
発行日 2025-06-05 17:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク