要約
我々は、与えられたテキストクエリに対応するビデオ内の時空間チューブをローカライズする問題を考察する。これは、時間的、空間的、マルチモーダルな相互作用の合同かつ効率的なモデリングを必要とする困難なタスクである。この課題に取り組むため、我々はTubeDETRを提案する。これは、テキスト条件付き物体検出のためのこのようなモデルの最近の成功に触発された、変換器ベースのアーキテクチャである。我々のモデルは特に以下を含む。(i)疎にサンプリングされたフレーム上の空間的なマルチモーダル相互作用をモデル化する効率的なビデオとテキストエンコーダ、(ii)時空間的な位置特定を共同で行う時空間デコーダ。我々は、広範囲なアブレーション研究を通じて、提案するコンポーネントの優位性を実証する。また、時空間ビデオ接地タスクで我々の完全なアプローチを評価し、困難なVidSTGとHC-STVGベンチマークにおいて、最新技術に対する改善を実証する。コードと学習済みモデルは、https://antoyang.github.io/tubedetr.html で公開されています。
要約(オリジナル)
We consider the problem of localizing a spatio-temporal tube in a video corresponding to a given text query. This is a challenging task that requires the joint and efficient modeling of temporal, spatial and multi-modal interactions. To address this task, we propose TubeDETR, a transformer-based architecture inspired by the recent success of such models for text-conditioned object detection. Our model notably includes: (i) an efficient video and text encoder that models spatial multi-modal interactions over sparsely sampled frames and (ii) a space-time decoder that jointly performs spatio-temporal localization. We demonstrate the advantage of our proposed components through an extensive ablation study. We also evaluate our full approach on the spatio-temporal video grounding task and demonstrate improvements over the state of the art on the challenging VidSTG and HC-STVG benchmarks. Code and trained models are publicly available at https://antoyang.github.io/tubedetr.html.
arxiv情報
著者 | Antoine Yang,Antoine Miech,Josef Sivic,Ivan Laptev,Cordelia Schmid |
発行日 | 2022-06-09 13:22:50+00:00 |
arxivサイト | arxiv_id(pdf) |