Cross-modal Contrastive Learning with Asymmetric Co-attention Network for Video Moment Retrieval

要約

ビデオの瞬間の取得は、ビデオとテキストのモダリティ間のきめ細かい対話を必要とする困難なタスクです。
画像とテキストの事前トレーニングにおける最近の研究では、ほとんどの既存の事前トレーニング済みモデルが、ビジュアル シーケンスとテキスト シーケンスの長さの違いによる情報の非対称性を抱えていることが実証されました。
私たちは、空間情報と時間情報の両方を保存する必要があるビデオテキスト領域にも同じ問題が存在するかどうか疑問に思っています。
したがって、ビデオグラウンディングタスク用の非対称同時注意ネットワークの追加を含む、最近提案されたソリューションを評価します。
さらに、両方のモダリティで堅牢な識別表現学習のために運動量対比損失を組み込みます。
これらの補足モジュールを統合すると、TACoS データセットの最先端のモデルと比較して優れたパフォーマンスが得られ、ActivityNet Captions で同等の結果が得られ、同時にベースラインと比べて使用するパラメーターが大幅に減少したことに注目します。

要約(オリジナル)

Video moment retrieval is a challenging task requiring fine-grained interactions between video and text modalities. Recent work in image-text pretraining has demonstrated that most existing pretrained models suffer from information asymmetry due to the difference in length between visual and textual sequences. We question whether the same problem also exists in the video-text domain with an auxiliary need to preserve both spatial and temporal information. Thus, we evaluate a recently proposed solution involving the addition of an asymmetric co-attention network for video grounding tasks. Additionally, we incorporate momentum contrastive loss for robust, discriminative representation learning in both modalities. We note that the integration of these supplementary modules yields better performance compared to state-of-the-art models on the TACoS dataset and comparable results on ActivityNet Captions, all while utilizing significantly fewer parameters with respect to baseline.

arxiv情報

著者 Love Panta,Prashant Shrestha,Brabeem Sapkota,Amrita Bhattarai,Suresh Manandhar,Anand Kumar Sah
発行日 2023-12-12 17:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク