要約
最近、オンライン アクション検出 (OAD) に対して機能ベースのアプローチを採用する傾向が高まっています。
ただし、これらのアプローチには、トレーニング可能なバックボーンの潜在的な機能が無視されている固定バックボーン設計による制限があります。
この論文では、OAD の主要な課題、つまり長期的な理解と効率的なオンライン推論に対処するために設計された、E2E-LOAD と呼ばれる最初のエンドツーエンド OAD モデルを提案します。
具体的には、私たちが提案するアプローチは、すべてのフレームで共有される初期空間モデルを採用し、低計算コストでの推論のために長いシーケンス キャッシュを維持します。
また、長文および短文のモデリングを効果的に行うための非対称時空間モデルも提唱しています。
さらに、高度な時空間探索を加速する斬新で効率的な推論メカニズムを提案します。
広範なアブレーション研究と実験により、私たちが提案する方法の有効性と効率性が実証されています。
特に、THMOUS14、TVSeries では、エンドツーエンド OAD で 72.4%~(+1.2%)、90.3%~(+0.7%)、および 48.1%~(+26.0%) の mAP で 17.3 (+12.6) FPS を達成しています。
、HDD それぞれ、以前のアプローチよりも 3 倍高速です。
ソースコードは公開される予定です。
要約(オリジナル)
Recently, there has been a growing trend toward feature-based approaches for Online Action Detection (OAD). However, these approaches have limitations due to their fixed backbone design, which ignores the potential capability of a trainable backbone. In this paper, we propose the first end-to-end OAD model, termed E2E-LOAD, designed to address the major challenge of OAD, namely, long-term understanding and efficient online reasoning. Specifically, our proposed approach adopts an initial spatial model that is shared by all frames and maintains a long sequence cache for inference at a low computational cost. We also advocate an asymmetric spatial-temporal model for long-form and short-form modeling effectively. Furthermore, we propose a novel and efficient inference mechanism that accelerates heavy spatial-temporal exploration. Extensive ablation studies and experiments demonstrate the effectiveness and efficiency of our proposed method. Notably, we achieve 17.3 (+12.6) FPS for end-to-end OAD with 72.4%~(+1.2%), 90.3%~(+0.7%), and 48.1%~(+26.0%) mAP on THMOUS14, TVSeries, and HDD, respectively, which is 3x faster than previous approaches. The source code will be made publicly available.
arxiv情報
著者 | Shuqiang Cao,Weixin Luo,Bairui Wang,Wei Zhang,Lin Ma |
発行日 | 2023-06-13 11:41:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google