Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video Moment Retrieval

要約

ビデオ モーメント取得 (VMR) は、クロスモーダル アラインメント戦略を構築することにより、特定の言語クエリに対応するトリミングされていないビデオ内の時間セグメントを取得することを目的としています。
ただし、これらの既存の戦略は、モダリティの不均衡の問題、\textit{i.e.}、つまりビデオに固有の意味論的な豊かさは、特定の長さの制限された文の意味論的な豊かさをはるかに超えているという問題を無視しているため、最適とは言えないことがよくあります。
したがって、より適切な調整を追求するには、ビデオ モダリティを強化してクエリに無関係なセマンティクスを除外し、テキスト モダリティを強化してよりセグメントに関連した知識を取得するのが自然なアイデアです。
このペーパーでは、2 つのレベルで機能を強化することにより、よりバランスの取れた調整を実現する新しいフレームワークであるモーダル拡張セマンティック モデリング (MESM) を紹介します。
まず、単語の再構成を通じてフレームワード レベルでビデオ モダリティを強化します。
この戦略は、フレームレベルの特徴においてクエリワードに関連付けられた部分を強調し、無関係な部分を抑制します。
したがって、強化されたビデオには冗長なセマンティクスが少なくなり、テキスト モダリティとのバランスがより取れます。
第二に、コンテキスト文とグラウンドトゥルースセグメントから補完的な知識を学習することにより、セグメント文レベルでのテキストモダリティを強化します。
クエリに知識が追加されると、テキスト モダリティはより意味のあるセマンティクスを維持し、ビデオ モダリティとよりバランスがとれます。
2 つのレベルの MESM を実装することにより、両方のモダリティからのセマンティック情報がよりバランスよく調整され、モダリティのギャップを埋めることができます。
配布外の設定を含む 3 つの広く使用されているベンチマークでの実験では、提案されたフレームワークが注目すべき一般化能力 (例: R1@0.7 の 4.42% および 7.69% の平均ゲイン) を備えた新しい最先端のパフォーマンスを達成することが示されています。
Charades-STA および Charades-CG で)。
コードは https://github.com/lntzm/MESM で入手できます。

要約(オリジナル)

Video Moment Retrieval (VMR) aims to retrieve temporal segments in untrimmed videos corresponding to a given language query by constructing cross-modal alignment strategies. However, these existing strategies are often sub-optimal since they ignore the modality imbalance problem, \textit{i.e.}, the semantic richness inherent in videos far exceeds that of a given limited-length sentence. Therefore, in pursuit of better alignment, a natural idea is enhancing the video modality to filter out query-irrelevant semantics, and enhancing the text modality to capture more segment-relevant knowledge. In this paper, we introduce Modal-Enhanced Semantic Modeling (MESM), a novel framework for more balanced alignment through enhancing features at two levels. First, we enhance the video modality at the frame-word level through word reconstruction. This strategy emphasizes the portions associated with query words in frame-level features while suppressing irrelevant parts. Therefore, the enhanced video contains less redundant semantics and is more balanced with the textual modality. Second, we enhance the textual modality at the segment-sentence level by learning complementary knowledge from context sentences and ground-truth segments. With the knowledge added to the query, the textual modality thus maintains more meaningful semantics and is more balanced with the video modality. By implementing two levels of MESM, the semantic information from both modalities is more balanced to align, thereby bridging the modality gap. Experiments on three widely used benchmarks, including the out-of-distribution settings, show that the proposed framework achieves a new start-of-the-art performance with notable generalization ability (e.g., 4.42% and 7.69% average gains of R1@0.7 on Charades-STA and Charades-CG). The code will be available at https://github.com/lntzm/MESM.

arxiv情報

著者 Zhihang Liu,Jun Li,Hongtao Xie,Pandeng Li,Jiannan Ge,Sun-Ao Liu,Guoqing Jin
発行日 2023-12-19 13:38:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク