要約
ビデオモーメントローカリゼーションは、自然言語クエリに従って、トリミングされていないビデオのターゲットセグメントを取得することを目的としています。
ターゲットセグメントの正確な時間的位置が常に入手できるとは限らないため、最近、弱教師あり手法が注目を集めています。
ただし、弱く教師ありの方法が直面する最大の課題の 1 つは、粗い時間的注釈によって引き起こされるビデオと言語間の不一致にあります。
視覚と言語の整合性を高めるために、最近の研究では、ポジティブなビデオ提案とネガティブなビデオ提案の間でマスクされたクエリを再構築することによって引き起こされるクロスモダリティの類似性を対比させています。
ただし、再構成は、マスクされていない部分とマスクされた部分の間の潜在的な擬似相関の影響を受ける可能性があり、マスクされた単語はクロスモダリティ知識から完全には再構成されないため、復元プロセスが歪められ、対比学習の有効性がさらに低下します。
この論文では、新しく提案された反事実クロスモダリティ推論方法を通じて、この偽の相関関係を発見し、軽減します。
具体的には、まずクエリの再構成を、クロスモダリティとクエリの知識の集合的な因果効果として定式化します。
次に、この集合体に反事実的なクロスモダリティ知識を導入することにより、再構成に寄与するマスクされていない部分の偽の影響が明示的にモデル化されます。
最後に、マスクされたクエリの単峰性効果を抑制することで、ビデオ提案の再構成を修正して、合理的な対比学習を実行できます。
広範な実験評価により、私たちが提案した方法の有効性が実証されています。
コードは \href{https://github.com/sLdZ0306/CCR}{https://github.com/sLdZ0306/CCR} で入手できます。
要約(オリジナル)
Video moment localization aims to retrieve the target segment of an untrimmed video according to the natural language query. Weakly supervised methods gains attention recently, as the precise temporal location of the target segment is not always available. However, one of the greatest challenges encountered by the weakly supervised method is implied in the mismatch between the video and language induced by the coarse temporal annotations. To refine the vision-language alignment, recent works contrast the cross-modality similarities driven by reconstructing masked queries between positive and negative video proposals. However, the reconstruction may be influenced by the latent spurious correlation between the unmasked and the masked parts, which distorts the restoring process and further degrades the efficacy of contrastive learning since the masked words are not completely reconstructed from the cross-modality knowledge. In this paper, we discover and mitigate this spurious correlation through a novel proposed counterfactual cross-modality reasoning method. Specifically, we first formulate query reconstruction as an aggregated causal effect of cross-modality and query knowledge. Then by introducing counterfactual cross-modality knowledge into this aggregation, the spurious impact of the unmasked part contributing to the reconstruction is explicitly modeled. Finally, by suppressing the unimodal effect of masked query, we can rectify the reconstructions of video proposals to perform reasonable contrastive learning. Extensive experimental evaluations demonstrate the effectiveness of our proposed method. The code is available at \href{https://github.com/sLdZ0306/CCR}{https://github.com/sLdZ0306/CCR}.
arxiv情報
著者 | Zezhong Lv,Bing Su,Ji-Rong Wen |
発行日 | 2023-08-10 15:45:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google