Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding

要約

ビデオ パラグラフ グラウンディング (VPG) は、ビデオ言語理解における新たなタスクであり、トリミングされていないビデオから意味関係と時間的順序を使用して複数の文をローカライズすることを目的としています。
しかし、既存の VPG アプローチは、取得に労力と時間がかかるかなりの数の時間ラベルに大きく依存しています。
この研究では、時間的注釈の必要性を排除するために、弱い教師付きビデオ パラグラフ グラウンディング (WSVPG) を導入および検討します。
2段階の候補ランキングのための複数のインスタンス学習または再構成学習に基づく以前の弱教師グラウンディングフレームワークとは異なり、タイムスタンプラベルを使用せずにクロスモーダル特徴アライメントと時間座標回帰を共同学習して簡潔な評価を達成する新しいシャム学習フレームワークを提案します。
WSVPG の -stage ローカリゼーション。
具体的には、補完的な監視を学習するための 2 つの重み共有ブランチで構成される Siamese Grounding TRansformer (SiamGTR) を考案します。
拡張ブランチは、疑似ビデオ内の完全な段落の時間的境界を直接回帰するために利用され、推論ブランチは、通常のビデオ内の複数の文をローカライズするための順序ガイド付き特徴対応をキャプチャするように設計されています。
私たちは広範な実験によって、私たちのパラダイムが優れた実用性と柔軟性を備え、効率的な弱い教師あり学習または半教師あり学習を実現し、同じまたは強力な教師で訓練された最先端の手法を上回るパフォーマンスを示していることを実証しました。

要約(オリジナル)

Video Paragraph Grounding (VPG) is an emerging task in video-language understanding, which aims at localizing multiple sentences with semantic relations and temporal order from an untrimmed video. However, existing VPG approaches are heavily reliant on a considerable number of temporal labels that are laborious and time-consuming to acquire. In this work, we introduce and explore Weakly-Supervised Video Paragraph Grounding (WSVPG) to eliminate the need of temporal annotations. Different from previous weakly-supervised grounding frameworks based on multiple instance learning or reconstruction learning for two-stage candidate ranking, we propose a novel siamese learning framework that jointly learns the cross-modal feature alignment and temporal coordinate regression without timestamp labels to achieve concise one-stage localization for WSVPG. Specifically, we devise a Siamese Grounding TRansformer (SiamGTR) consisting of two weight-sharing branches for learning complementary supervision. An Augmentation Branch is utilized for directly regressing the temporal boundaries of a complete paragraph within a pseudo video, and an Inference Branch is designed to capture the order-guided feature correspondence for localizing multiple sentences in a normal video. We demonstrate by extensive experiments that our paradigm has superior practicability and flexibility to achieve efficient weakly-supervised or semi-supervised learning, outperforming state-of-the-art methods trained with the same or stronger supervision.

arxiv情報

著者 Chaolei Tan,Jianhuang Lai,Wei-Shi Zheng,Jian-Fang Hu
発行日 2024-05-14 17:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク