要約
ビデオのビジュアル アンサー ローカリゼーション (VAL) の目標は、与えられた自然言語の質問に対する答えとして、ビデオから関連性のある簡潔なタイム クリップを取得することです。
初期の方法は、ビデオとテキストの間の相互作用モデリングに基づいて、視覚的予測子によって視覚的な答えを予測します。
後で、VAL の字幕付きのテキスト予測子を使用すると、より正確であることが証明されます。
ただし、これらの既存の方法には、視覚的なフレームやテキストの字幕からのクロスモーダルな知識の逸脱がまだあります。
この論文では、知識の偏差を減らすために、クロスモーダル相互知識伝達スパン ローカリゼーション (MutualSL) 法を提案します。
MutualSL には視覚的予測子とテキスト予測子の両方があり、クロスモダリティ間の意味知識の理解を促進するために、これら両方の予測結果が一貫していると予想されます。
これに基づいて、一方向の動的損失関数を設計して、知識移転の割合を動的に調整します。
評価のために、3 つの公開データセットに対して広範な実験を実施しました。
実験結果は、私たちの方法が他の競争力のある最先端(SOTA)方法よりも優れていることを示しており、その有効性を示しています。
要約(オリジナル)
The goal of visual answering localization (VAL) in the video is to obtain a relevant and concise time clip from a video as the answer to the given natural language question. Early methods are based on the interaction modeling between video and text to predict the visual answer by the visual predictor. Later, using textual predictor with subtitles for the VAL proves to be more precise. However, these existing methods still have cross-modal knowledge deviations from visual frames or textual subtitles. In this paper, we propose a cross-modal mutual knowledge transfer span localization (MutualSL) method to reduce the knowledge deviation. MutualSL has both visual predictor and textual predictor, where we expect the prediction results of these both to be consistent, so as to promote semantic knowledge understanding between cross-modalities. On this basis, we design a one-way dynamic loss function to dynamically adjust the proportion of knowledge transferring. We have conducted extensive experiments on three public datasets for evaluation. The experimental results show that our method outperforms other competitive state-of-the-art (SOTA) methods, demonstrating its effectiveness.
arxiv情報
著者 | Yixuan Weng,Bin Li |
発行日 | 2022-10-26 16:11:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google