Minimum Efforts to Build an End-to-End Spatial-Temporal Action Detector

要約

空間的・時間的な行動検出は映像理解に不可欠な要素である。現在の空間的時間的行動検出手法は、まず物体検出器を用いて人物候補の提案を得る。次に、モデルによって人物候補を異なるアクションカテゴリに分類する。いわゆる2ステージの手法は重く、実世界のアプリケーションに適用するのは困難である。既存の手法の中には、統一的なモデル構造を用いるものもあるが、バニラモデルでは性能が悪く、性能を上げるために追加のモジュールが必要になることが多い。本論文では、最小限の修正でエンドツーエンドの空間的・時間的行動検出器を構築するための戦略を模索する。この目的のために、我々はME-STADと名付けた新しい手法を提案し、空間-時間行動検出問題をエンドツーエンドで解決する。モデル設計に加え、我々は空間-時間データセットにおける疎なアノテーションを扱うための新しいラベリング戦略を提案する。提案するME-STADは、オリジナルの2段検出器よりも良い結果(2.2%のmAP boost)を達成し、約80%のFLOPs削減を実現する。さらに、提案するME-STADは、従来の手法に最小限の変更を加えるだけで、余分なコンポーネントを必要としません。なお、本提案のコードは公開される予定です。

要約(オリジナル)

Spatial-temporal action detection is a vital part of video understanding. Current spatial-temporal action detection methods will first use an object detector to obtain person candidate proposals. Then, the model will classify the person candidates into different action categories. So-called two-stage methods are heavy and hard to apply in real-world applications. Some existing methods use a unified model structure, But they perform badly with the vanilla model and often need extra modules to boost the performance. In this paper, we explore the strategy to build an end-to-end spatial-temporal action detector with minimal modifications. To this end, we propose a new method named ME-STAD, which solves the spatial-temporal action detection problem in an end-to-end manner. Besides the model design, we propose a novel labeling strategy to deal with sparse annotations in spatial-temporal datasets. The proposed ME-STAD achieves better results (2.2% mAP boost) than original two-stage detectors and around 80% FLOPs reduction. Moreover, our proposed ME-STAD only has minimum modifications with previous methods and does not require extra components. Our code will be made public.

arxiv情報

著者 Lin Sui,Chen-Lin Zhang,Lixin Gu,Feng Han
発行日 2022-06-07 07:31:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク