Temporal Action Localization with Enhanced Instant Discriminability

要約

時間的アクション検出 (TAD) は、トリミングされていないビデオ内のすべてのアクション境界とそれに対応するカテゴリを検出することを目的としています。
ビデオ内のアクションの境界が不明確であるため、既存の方法ではアクションの境界が不正確に予測されることがよくあります。
この問題を解決するために、私たちは TriDet という 1 段階のフレームワークを提案します。
まず、境界付近の推定相対確率分布を介してアクション境界をモデル化するトライデントヘッドを提案します。
次に、トランスベースの手法におけるランク損失問題 (つまり、瞬時の識別能力の低下) を分析し、この問題を軽減するための効率的なスケーラブル粒度認識 (SGP) レイヤーを提案します。
ビデオ バックボーンにおける瞬時の識別能力の限界をさらに押し上げるために、事前トレーニングされた大規模モデルの強力な表現機能を活用し、TAD でのパフォーマンスを調査します。
最後に、分類に適切な時空間コンテキストを考慮して、位置特定のための大規模モデルから豊富な空間コンテキストを組み込むために、個別の特徴ピラミッドを備えた分離された特徴ピラミッド ネットワークを設計します。
実験結果は、階層 (マルチラベル) TAD データセットを含む複数の TAD データセットに対する TriDet の堅牢性とその最先端のパフォーマンスを示しています。

要約(オリジナル)

Temporal action detection (TAD) aims to detect all action boundaries and their corresponding categories in an untrimmed video. The unclear boundaries of actions in videos often result in imprecise predictions of action boundaries by existing methods. To resolve this issue, we propose a one-stage framework named TriDet. First, we propose a Trident-head to model the action boundary via an estimated relative probability distribution around the boundary. Then, we analyze the rank-loss problem (i.e. instant discriminability deterioration) in transformer-based methods and propose an efficient scalable-granularity perception (SGP) layer to mitigate this issue. To further push the limit of instant discriminability in the video backbone, we leverage the strong representation capability of pretrained large models and investigate their performance on TAD. Last, considering the adequate spatial-temporal context for classification, we design a decoupled feature pyramid network with separate feature pyramids to incorporate rich spatial context from the large model for localization. Experimental results demonstrate the robustness of TriDet and its state-of-the-art performance on multiple TAD datasets, including hierarchical (multilabel) TAD datasets.

arxiv情報

著者 Dingfeng Shi,Qiong Cao,Yujie Zhong,Shan An,Jian Cheng,Haogang Zhu,Dacheng Tao
発行日 2023-09-11 16:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク