Tracking Objects and Activities with Attention for Temporal Sentence Grounding

要約

テンポラル センテンス グラウンディング (TSG) は、トリミングされていないビデオの自然言語クエリと意味的に一致するテンポラル セグメントをローカライズすることを目的としています。ほとんどの既存の方法は、従来の TSG フレームワークの下で 3D ConvNet または検出ネットワークによって、フレーム粒度の特徴またはオブジェクト粒度の特徴を抽出します。
、フレーム間の微妙な違いを捉えたり、コアの人物/オブジェクトの時空間的動作をモデル化したりできません。
このホワイトペーパーでは、重要なオブジェクトとアクティビティを追跡して、よりきめ細かい時空間動作を学習することにより、TSG タスクに対処するための新しい視点を紹介します。
具体的には、(A)マルチモーダルテンプレートと検索スペースを生成し、オブジェクトとアクティビティをフィルタリングするためのクロスモーダルターゲットジェネレーター、および(B)追跡するための時間文トラッカーを含む、新しい時間文追跡ネットワーク(TSTNet)を提案します。
ターゲットの動作をモデル化し、クエリ関連のセグメントを予測するためのマルチモーダル ターゲット。
Charades-STA と TACoS という挑戦的なベンチマークで、広範な実験と最新技術との比較が行われます。
また、当社の TSTNet は、かなりのリアルタイム速度で最高のパフォーマンスを実現します。

要約(オリジナル)

Temporal sentence grounding (TSG) aims to localize the temporal segment which is semantically aligned with a natural language query in an untrimmed video.Most existing methods extract frame-grained features or object-grained features by 3D ConvNet or detection network under a conventional TSG framework, failing to capture the subtle differences between frames or to model the spatio-temporal behavior of core persons/objects. In this paper, we introduce a new perspective to address the TSG task by tracking pivotal objects and activities to learn more fine-grained spatio-temporal behaviors. Specifically, we propose a novel Temporal Sentence Tracking Network (TSTNet), which contains (A) a Cross-modal Targets Generator to generate multi-modal templates and search space, filtering objects and activities, and (B) a Temporal Sentence Tracker to track multi-modal targets for modeling the targets’ behavior and to predict query-related segment. Extensive experiments and comparisons with state-of-the-arts are conducted on challenging benchmarks: Charades-STA and TACoS. And our TSTNet achieves the leading performance with a considerable real-time speed.

arxiv情報

著者 Zeyu Xiong,Daizong Liu,Pan Zhou,Jiahao Zhu
発行日 2023-02-21 16:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク