Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding

要約

時空間ビデオ グラウンディング (STVG) は、自由形式のテキスト表現で表される特定のオブジェクトの時空間チューブを取得することに重点を置いています。
既存のアプローチは、主にこの複雑なタスクを並列フレームグラウンディングの問題として扱っているため、2 種類の不一致の欠点があります: 特徴の配置の不一致と予測の不一致です。
このホワイトペーパーでは、これらの問題を軽減するために、時空間整合性認識トランスフォーマー (STCAT) と呼ばれるエンドツーエンドの 1 段階フレームワークを紹介します。
特に、このタスクに対処するためのグローバルな目的として、新しいマルチモーダル テンプレートを導入します。これにより、接地領域が明示的に制限され、すべてのビデオ フレーム間で予測が関連付けられます。
さらに、十分なビデオテキスト認識の下で上記のテンプレートを生成するために、効果的なグローバルコンテキストモデリングのためのエンコーダーデコーダーアーキテクチャが提案されています。
これらの重要な設計のおかげで、STCAT は、事前にトレーニングされたオブジェクト検出器に依存することなく、より一貫したクロスモーダル機能のアライメントとチューブ予測を利用できます。
広範な実験により、私たちの方法は、2 つの挑戦的なビデオ ベンチマーク (VidSTG と HC-STVG) で明確なマージンを持って以前の最先端技術よりも優れていることが示され、視覚と自然言語の関連性をよりよく理解するための提案されたフレームワークの優位性が示されました。
コードは \url{https://github.com/jy0205/STCAT} で公開されています。

要約(オリジナル)

Spatio-Temporal video grounding (STVG) focuses on retrieving the spatio-temporal tube of a specific object depicted by a free-form textual expression. Existing approaches mainly treat this complicated task as a parallel frame-grounding problem and thus suffer from two types of inconsistency drawbacks: feature alignment inconsistency and prediction inconsistency. In this paper, we present an end-to-end one-stage framework, termed Spatio-Temporal Consistency-Aware Transformer (STCAT), to alleviate these issues. Specially, we introduce a novel multi-modal template as the global objective to address this task, which explicitly constricts the grounding region and associates the predictions among all video frames. Moreover, to generate the above template under sufficient video-textual perception, an encoder-decoder architecture is proposed for effective global context modeling. Thanks to these critical designs, STCAT enjoys more consistent cross-modal feature alignment and tube prediction without reliance on any pre-trained object detectors. Extensive experiments show that our method outperforms previous state-of-the-arts with clear margins on two challenging video benchmarks (VidSTG and HC-STVG), illustrating the superiority of the proposed framework to better understanding the association between vision and natural language. Code is publicly available at \url{https://github.com/jy0205/STCAT}.

arxiv情報

著者 Yang Jin,Yongzhi Li,Zehuan Yuan,Yadong Mu
発行日 2022-09-27 11:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク