End-to-End Dense Video Grounding via Parallel Regression

要約

ビデオ グラウンディングは、言語クエリが与えられた場合に、トリミングされていないビデオ内の対応するビデオの瞬間をローカライズすることを目的としています。
既存の方法では、このタスクを提案と照合の問題または融合と検出の問題としてキャストすることで、間接的な方法でこのタスクに対処することがよくあります。
これらの代理問題を解決するには、多くの場合、トレーニング中に高度なラベルの割り当てを行ったり、重複に近い結果を手作業で削除したりする必要があります。
一方、既存の作品は一般的に、単一の文を入力として、まばらなビデオの根拠に焦点を当てており、その説明が不明確であるため、定位が曖昧になる可能性があります。
この論文では、入力として段落を使用して複数の瞬間を同時にローカライズすることにより、高密度ビデオグラウンディングという新しい問題に取り組みます。
言語条件付き回帰としてのビデオグラウンディングの観点から、Transformer-alike アーキテクチャ (PRVG) を再利用することにより、エンドツーエンドの並列デコード パラダイムを提示します。
PRVG の主要な設計は、言語をクエリとして使用し、言語で調整された視覚表現に基づいて瞬間境界を直接回帰することです。
設計がシンプルであるため、PRVG フレームワークはさまざまなテスト スキーム (疎または密な接地) に適用でき、後処理技術を必要とせずに効率的な推論が可能になります。
さらに、PRVG のトレーニングをガイドするための強力な提案レベルの注意喪失を考案します。これは、瞬間の継続時間に対して不変であり、モデルの収束に貢献します。
私たちは、ActivityNet Captions と TACoS の 2 つのビデオ グラウンディング ベンチマークで実験を実行し、PRVG が以前の方法を大幅に上回ることができることを実証しました。
また、ビデオグラウンディングにおける並列回帰パラダイムの有効性を調査するための詳細な研究も行っています。

要約(オリジナル)

Video grounding aims to localize the corresponding video moment in an untrimmed video given a language query. Existing methods often address this task in an indirect way, by casting it as a proposal-and-match or fusion-and-detection problem. Solving these surrogate problems often requires sophisticated label assignment during training and hand-crafted removal of near-duplicate results. Meanwhile, existing works typically focus on sparse video grounding with a single sentence as input, which could result in ambiguous localization due to its unclear description. In this paper, we tackle a new problem of dense video grounding, by simultaneously localizing multiple moments with a paragraph as input. From a perspective on video grounding as language conditioned regression, we present an end-to-end parallel decoding paradigm by re-purposing a Transformer-alike architecture (PRVG). The key design in our PRVG is to use languages as queries, and directly regress the moment boundaries based on language-modulated visual representations. Thanks to its simplicity in design, our PRVG framework can be applied in different testing schemes (sparse or dense grounding) and allows for efficient inference without any post-processing technique. In addition, we devise a robust proposal-level attention loss to guide the training of PRVG, which is invariant to moment duration and contributes to model convergence. We perform experiments on two video grounding benchmarks of ActivityNet Captions and TACoS, demonstrating that our PRVG can significantly outperform previous methods. We also perform in-depth studies to investigate the effectiveness of parallel regression paradigm on video grounding.

arxiv情報

著者 Fengyuan Shi,Weilin Huang,Limin Wang
発行日 2024-02-28 13:04:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク