要約
Composed Video Retrieval(COVR)は、クエリビデオと、意図した変更を説明する修正テキストを指定したターゲットビデオを取得します。
既存のCOVRベンチマークは、外観のシフトまたは粗いイベントの変更を強調するため、微妙でペースの速い時間的違いをキャプチャする能力をテストしません。
一時的に細いCOVR専用の最初の大規模なベンチマークであるTF-COVRを紹介します。
TF-COVRは体操とダイビングに焦点を当てており、FineGymとFinedivingから描かれた180kのトリプレットを提供しています。
時間的側面に焦点を当てた以前のCOVRベンチマークは、各クエリを同じビデオから取得した単一のターゲットセグメントにリンクし、実用的な有用性を制限します。
TF-COVRでは、代わりに、異なるビデオから描かれたクリップ間のラベルの違いをLLMにプロンプトすることにより、各<クエリ、変更>ペアを作成します。
したがって、すべてのペアは、スポーツハイライト生成などの実際のタスクを反映して、複数の有効なターゲットビデオ(平均3.9)に関連付けられています。
これらの時間的ダイナミクスをモデル化するために、簡潔な2段階のトレーニングフレームワークであるTF-COVR-Baseを提案します。(i)一時的に識別的な埋め込みを取得するためのきめ細かいアクション分類に関するビデオエンコーダーを事前訓練します。
(ii)コンポーティングされたクエリを、対照的な学習を使用して候補ビデオに合わせます。
ゼロショットと微調整体制の両方で、一時的に細粒化された構成検索で画像、ビデオ、および一般的なマルチモーダル埋め込み(GME)モデルの最初の包括的な研究を実施します。
TF-COVRでは、TF-COVR-Baseはゼロショットマップ@50@50(LanguageBind)から7.51に改善し、微調整後、最先端を19.83から25.82に引き上げます。
要約(オリジナル)
Composed Video Retrieval (CoVR) retrieves a target video given a query video and a modification text describing the intended change. Existing CoVR benchmarks emphasize appearance shifts or coarse event changes and therefore do not test the ability to capture subtle, fast-paced temporal differences. We introduce TF-CoVR, the first large-scale benchmark dedicated to temporally fine-grained CoVR. TF-CoVR focuses on gymnastics and diving and provides 180K triplets drawn from FineGym and FineDiving. Previous CoVR benchmarks focusing on temporal aspect, link each query to a single target segment taken from the same video, limiting practical usefulness. In TF-CoVR, we instead construct each
arxiv情報
著者 | Animesh Gupta,Jay Parmar,Ishan Rajendrakumar Dave,Mubarak Shah |
発行日 | 2025-06-05 17:31:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google