Fine-grained Semantic Alignment Network for Weakly Supervised Temporal Language Grounding

要約

テンポラル ランゲージ グラウンディング (TLG) は、自然言語の説明に基づいて、トリミングされていないビデオのビデオ セグメントをローカライズすることを目的としています。
一時的な境界ラベルの手動注釈の高価なコストを軽減するために、トレーニング用にビデオレベルの説明のみが提供される、監視が弱い設定に専念しています。
既存の弱教師付きメソッドのほとんどは、候補セグメント セットを生成し、MIL ベースのフレームワークを通じてクロスモーダル アラインメントを学習します。
しかし、動画の時間構造や文章の複雑な意味は学習中に失われてしまいます。
この作業では、新しい候補のないフレームワークを提案します: 弱い教師付き TLG のための細粒度セマンティック アラインメント ネットワーク (FSAN)。
文と候補モーメントを全体として表示する代わりに、FSAN は、反復的なクロスモーダル インタラクション モジュールによってトークンごとのクロスモーダル セマンティック アラインメントを学習し、きめの細かいクロスモーダル セマンティック アラインメント マップを生成し、グラウンディングを直接実行します。
マップの上部。
広く使用されている 2 つのベンチマーク、ActivityNet-Captions と、当社の FSAN が最先端のパフォーマンスを実現する DiDeMo で広範な実験が行われています。

要約(オリジナル)

Temporal language grounding (TLG) aims to localize a video segment in an untrimmed video based on a natural language description. To alleviate the expensive cost of manual annotations for temporal boundary labels, we are dedicated to the weakly supervised setting, where only video-level descriptions are provided for training. Most of the existing weakly supervised methods generate a candidate segment set and learn cross-modal alignment through a MIL-based framework. However, the temporal structure of the video as well as the complicated semantics in the sentence are lost during the learning. In this work, we propose a novel candidate-free framework: Fine-grained Semantic Alignment Network (FSAN), for weakly supervised TLG. Instead of view the sentence and candidate moments as a whole, FSAN learns token-by-clip cross-modal semantic alignment by an iterative cross-modal interaction module, generates a fine-grained cross-modal semantic alignment map, and performs grounding directly on top of the map. Extensive experiments are conducted on two widely-used benchmarks: ActivityNet-Captions, and DiDeMo, where our FSAN achieves state-of-the-art performance.

arxiv情報

著者 Yuechen Wang,Wengang Zhou,Houqiang Li
発行日 2022-10-21 13:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク