Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval

要約

ビデオモーメント検索は、視覚言語モデルのパフォーマンスを評価するための一般的なタスクです。クエリセンテンスからのビデオの瞬間の開始時間と終了時間をローカリングすることが含まれます。
現在のタスクの定式化は、クエリのモーメントがビデオに存在することを前提としており、その結果、無関係なクエリ文が提供されると、偽陽性モーメントの予測が生じます。
このペーパーでは、否定的なビデオモーメント検索(NA-VMR)のタスクを提案します。これは、モーメントの検索精度と負のクエリ拒否の精度の両方を考慮します。
ドメイン内とドメイン外のネガティブクエリを区別し、2つの人気のあるビデオモーメント検索データセットの新しい評価ベンチマークを提供します:QVHighlightsとCharades-sta。
Na-VMRに取り組むように設計されたUNIVTGの適応であるUnivtg-NAを否定的なビデオモーメント検索に適応させるために、現在のSOTAビデオモーメント検索アプローチの能力を分析します。
Univtg-naは、$ 3.87 \%$ recall@1以内にモーメント検索スコアを保持しながら、高い負の拒絶反応精度(平均$ 98.4 \%$)スコアを達成します。
データセットの分割とコードは、https://github.com/keflanagan/momentofuntruthで入手できます

要約(オリジナル)

Video Moment Retrieval is a common task to evaluate the performance of visual-language models – it involves localising start and end times of moments in videos from query sentences. The current task formulation assumes that the queried moment is present in the video, resulting in false positive moment predictions when irrelevant query sentences are provided. In this paper we propose the task of Negative-Aware Video Moment Retrieval (NA-VMR), which considers both moment retrieval accuracy and negative query rejection accuracy. We make the distinction between In-Domain and Out-of-Domain negative queries and provide new evaluation benchmarks for two popular video moment retrieval datasets: QVHighlights and Charades-STA. We analyse the ability of current SOTA video moment retrieval approaches to adapt to Negative-Aware Video Moment Retrieval and propose UniVTG-NA, an adaptation of UniVTG designed to tackle NA-VMR. UniVTG-NA achieves high negative rejection accuracy (avg. $98.4\%$) scores while retaining moment retrieval scores to within $3.87\%$ Recall@1. Dataset splits and code are available at https://github.com/keflanagan/MomentofUntruth

arxiv情報

著者 Kevin Flanagan,Dima Damen,Michael Wray
発行日 2025-02-13 15:04:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク