要約
時空間アクションの検出は、ビデオ理解の重要な部分です。
現在の時空間アクション検出方法は、ほとんどの場合、オブジェクト検出器を使用して人物候補を取得し、これらの人物候補をさまざまなアクション カテゴリに分類します。
いわゆる 2 段階の方法は重く、実際のアプリケーションに適用するのは困難です。
一部の既存のメソッドは 1 ステージ パイプラインを構築しますが、バニラの 1 ステージ パイプラインではパフォーマンスが大幅に低下し、同等のパフォーマンスを実現するには追加の分類モジュールが必要です。
このホワイト ペーパーでは、強力な 1 段階の時空間アクション検出器を構築するためのシンプルで効果的なパイプラインについて説明します。
パイプラインは 2 つの部分で構成されています。1 つは単純なエンドツーエンドの時空間アクション検出器です。
提案されたエンド ツー エンドの検出器は、現在の提案ベースの検出器に小さなアーキテクチャ変更を加えており、追加のアクション分類モジュールを追加していません。
他の部分は、疎な注釈付きデータでラベルのないフレームを利用するための新しいラベル付け戦略です。
このモデルを SE-STAD と名付けました。
提案された SE-STAD は、mAP を約 2% ブーストし、FLOP を約 80% 削減します。
コードは https://github.com/4paradigm-CV/SE-STAD でリリースされます。
要約(オリジナル)
Spatial-temporal action detection is a vital part of video understanding. Current spatial-temporal action detection methods mostly use an object detector to obtain person candidates and classify these person candidates into different action categories. So-called two-stage methods are heavy and hard to apply in real-world applications. Some existing methods build one-stage pipelines, But a large performance drop exists with the vanilla one-stage pipeline and extra classification modules are needed to achieve comparable performance. In this paper, we explore a simple and effective pipeline to build a strong one-stage spatial-temporal action detector. The pipeline is composed by two parts: one is a simple end-to-end spatial-temporal action detector. The proposed end-to-end detector has minor architecture changes to current proposal-based detectors and does not add extra action classification modules. The other part is a novel labeling strategy to utilize unlabeled frames in sparse annotated data. We named our model as SE-STAD. The proposed SE-STAD achieves around 2% mAP boost and around 80% FLOPs reduction. Our code will be released at https://github.com/4paradigm-CV/SE-STAD.
arxiv情報
著者 | Lin Sui,Chen-Lin Zhang,Lixin Gu,Feng Han |
発行日 | 2022-10-27 13:11:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google