要約
この技術報告では、人間中心の時空間映像の下地処理タスクに対する我々のソリューションを紹介する。このフレームワークは、静的ブランチと動的ブランチによって時空間的な視覚言語依存性をモデル化するもので、STVGFormerと名付けられた簡潔かつ効果的なフレームワークを提案する。静的ブランチは、単一フレーム内でクロスモーダルな理解を行い、オブジェクトの外観のようなフレーム内の視覚的手がかりに従ってターゲットオブジェクトを空間的に定位することを学習する。動的ブランチは、複数のフレームに渡ってクロスモーダルな理解を行う。これは、動作のような動的な視覚的手がかりに従って、ターゲット瞬間の開始と終了の時間を予測することを学習する。静的ブランチと動的ブランチは共に、クロスモーダル変換器として設計されている。さらに、静的ブランチと動的ブランチが互いに補完的で有用な情報を伝達できるように、新しい静的・動的相互作用ブロックを設計し、困難なケースでの予測を改善するのに有効であることを示す。提案手法は39.6%のvIoUを達成し、第4回Person in Context ChallengeのHC-STVGトラックで1位を獲得しました。
要約(オリジナル)
In this technical report, we introduce our solution to human-centric spatio-temporal video grounding task. We propose a concise and effective framework named STVGFormer, which models spatiotemporal visual-linguistic dependencies with a static branch and a dynamic branch. The static branch performs cross-modal understanding in a single frame and learns to localize the target object spatially according to intra-frame visual cues like object appearances. The dynamic branch performs cross-modal understanding across multiple frames. It learns to predict the starting and ending time of the target moment according to dynamic visual cues like motions. Both the static and dynamic branches are designed as cross-modal transformers. We further design a novel static-dynamic interaction block to enable the static and dynamic branches to transfer useful and complementary information from each other, which is shown to be effective to improve the prediction on hard cases. Our proposed method achieved 39.6% vIoU and won the first place in the HC-STVG track of the 4th Person in Context Challenge.
arxiv情報
| 著者 | Zihang Lin,Chaolei Tan,Jian-Fang Hu,Zhi Jin,Tiancai Ye,Wei-Shi Zheng |
| 発行日 | 2022-07-06 15:48:58+00:00 |
| arxivサイト | arxiv_id(pdf) |