MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors

要約

マルチメディア コンテンツの急増に伴い、ビデオから特定のテキスト クエリに一致するビデオ モーメントを検出することを目的としたビデオ モーメント検索 (VMR) が、重要な問題として集中的に研究されています。
ただし、既存の VMR フレームワークは、ビデオが与えられたと仮定してビデオの瞬間の取得パフォーマンスを評価するため、モデルが誤って与えられたビデオに対して過信を示すかどうかを明らかにできない可能性があります。
この論文では、VMR モデルの忠実性を評価するために、複数のディストラクタを含む大規模なビデオ セット内のビデオ モーメントを取得することを目的とした MVMR (忠実性評価のための大量ビデオ モーメント取得) タスクを提案します。
このタスクでは、テキストおよび視覚的な意味論的距離検証方法を使用して、ネガティブ (気が散る) ビデオ セットとポジティブ (偽陰性) ビデオ セットを分類する、自動化された大規模ビデオ プール構築フレームワークを提案します。
これらの手法を用いて既存のVMRデータセットを拡張し、新たに3つの実用的なMVMRデータセットを構築します。
この課題を解決するために、我々はさらに、強力な有益なサンプル重み付け学習法である CroCs を提案します。これは、(1) 弱教師付きポテンシャルネガティブ学習、(2) 交差方向ハードネガティブ学習という 2 つの対照的な学習メカニズムを採用しています。
MVMR データセットの実験結果から、既存の VMR モデルは誤った情報 (気が散る要因) によって簡単に気を散らされるのに対し、私たちのモデルは非常に堅牢なパフォーマンスを示し、ポジティブな瞬間と気が散る要因を区別するのに CroC が不可欠であることが示されています。
私たちのコードとデータセットは https://github.com/yny0506/Massive-Videos-Moment-Retrieval から公開されています。

要約(オリジナル)

With the explosion of multimedia content, video moment retrieval (VMR), which aims to detect a video moment that matches a given text query from a video, has been studied intensively as a critical problem. However, the existing VMR framework evaluates video moment retrieval performance, assuming that a video is given, which may not reveal whether the models exhibit overconfidence in the falsely given video. In this paper, we propose the MVMR (Massive Videos Moment Retrieval for Faithfulness Evaluation) task that aims to retrieve video moments within a massive video set, including multiple distractors, to evaluate the faithfulness of VMR models. For this task, we suggest an automated massive video pool construction framework to categorize negative (distractors) and positive (false-negative) video sets using textual and visual semantic distance verification methods. We extend existing VMR datasets using these methods and newly construct three practical MVMR datasets. To solve the task, we further propose a strong informative sample-weighted learning method, CroCs, which employs two contrastive learning mechanisms: (1) weakly-supervised potential negative learning and (2) cross-directional hard-negative learning. Experimental results on the MVMR datasets reveal that existing VMR models are easily distracted by the misinformation (distractors), whereas our model shows significantly robust performance, demonstrating that CroCs is essential to distinguishing positive moments against distractors. Our code and datasets are publicly available: https://github.com/yny0506/Massive-Videos-Moment-Retrieval.

arxiv情報

著者 Nakyeong Yang,Minsung Kim,Seunghyun Yoon,Joongbo Shin,Kyomin Jung
発行日 2024-07-29 06:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク