要約
長いビデオには、繰り返しのアクション、イベント、ショットが多数含まれています。
これらの繰り返しには同一のキャプションが付けられることが多く、テキスト検索を使用して目的のクリップを正確に取得することが困難になります。
この論文では、一意のキャプションの問題を定式化します。同じキャプションを持つ複数のクリップがある場合、クリップごとにそれを一意に識別する新しいキャプションを生成します。
我々は、同一のキャプションが付けられたクリップを分離できるプロパティを予測し、それを使用して一意のキャプションを生成する、識別プロンプティング (CDP) によるキャプションを提案します。
繰り返しのアクションが一般的である自己中心的な映像とタイムループ映画に基づいた、ユニークなキャプションのための 2 つのベンチマークを紹介します。
CDP によって生成されたキャプションにより、テキストからビデオへの R@1 が自己中心的なビデオでは 15%、タイムループ映画では 10% 向上することを示します。
要約(オリジナル)
Long videos contain many repeating actions, events and shots. These repetitions are frequently given identical captions, which makes it difficult to retrieve the exact desired clip using a text search. In this paper, we formulate the problem of unique captioning: Given multiple clips with the same caption, we generate a new caption for each clip that uniquely identifies it. We propose Captioning by Discriminative Prompting (CDP), which predicts a property that can separate identically captioned clips, and use it to generate unique captions. We introduce two benchmarks for unique captioning, based on egocentric footage and timeloop movies – where repeating actions are common. We demonstrate that captions generated by CDP improve text-to-video R@1 by 15% for egocentric videos and 10% in timeloop movies.
arxiv情報
著者 | Toby Perrett,Tengda Han,Dima Damen,Andrew Zisserman |
発行日 | 2024-10-15 15:41:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google