Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training Framework for Temporal Grounding

要約

時間的接地は、トリミングされていないビデオの中から、与えられた文のクエリに意味的に対応するターゲットビデオの瞬間を探し出すことを目的としている。しかし、最近の研究により、既存の手法には深刻な時間的偏りの問題があることが判明した。これらの手法は、視覚的・テキスト的な意味的整合性に基づいてターゲットモーメントの位置を推論するのではなく、学習セット中のクエリの時間的偏りに過度に依存している。このため、本稿では、シャッフルされた動画を用いることで、接地精度を落とすことなく、時間的バイアス問題に対処する接地モデルのための新しい学習フレームワークを提案する。本フレームワークは、接地モデルの学習を促進するために、クロスモーダルマッチングと時間順序判別という2つの補助タスクを導入する。クロスモーダルマッチングタスクは、シャッフルされたビデオとオリジナルビデオ間のコンテンツの一貫性を利用し、意味的にクエリーと一致させるために、接地モデルにビジュアルコンテンツをマイニングすることを強いる。時間順序判別タスクは、時間順序の違いを利用して、長期的な時間的文脈の理解を強化する。Charades-STAとActivityNet Captionsを用いた広範な実験により、時間バイアスへの依存を軽減し、異なる時間分布に対するモデルの汎化能力を強化する本手法の有効性を実証する。コードは https://github.com/haojc/ShufflingVideosForTSG で公開されている。

要約(オリジナル)

Temporal grounding aims to locate a target video moment that semantically corresponds to the given sentence query in an untrimmed video. However, recent works find that existing methods suffer a severe temporal bias problem. These methods do not reason the target moment locations based on the visual-textual semantic alignment but over-rely on the temporal biases of queries in training sets. To this end, this paper proposes a novel training framework for grounding models to use shuffled videos to address temporal bias problem without losing grounding accuracy. Our framework introduces two auxiliary tasks, cross-modal matching and temporal order discrimination, to promote the grounding model training. The cross-modal matching task leverages the content consistency between shuffled and original videos to force the grounding model to mine visual contents to semantically match queries. The temporal order discrimination task leverages the difference in temporal order to strengthen the understanding of long-term temporal contexts. Extensive experiments on Charades-STA and ActivityNet Captions demonstrate the effectiveness of our method for mitigating the reliance on temporal biases and strengthening the model’s generalization ability against the different temporal distributions. Code is available at https://github.com/haojc/ShufflingVideosForTSG.

arxiv情報

著者 Jiachang Hao,Haifeng Sun,Pengfei Ren,Jingyu Wang,Qi Qi,Jianxin Liao
発行日 2022-08-05 09:08:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク