A Circular Window-based Cascade Transformer for Online Action Detection

要約

オンライン アクション検出は、長い履歴観察に基づいて、現在のフレームの正確なアクション予測を目指しています。
一方、オンライン ストリーミング ビデオではリアルタイムの推論が必要です。
この論文では、オンライン行動検出のための斬新で効率的な原理を提唱します。
1 つのウィンドウで最新および最古の履歴表現を更新するだけで、既に計算されている中間の表現を再利用します。
この原則に基づいて、循環履歴キューを備えたウィンドウベースのカスケード Transformer を導入し、各ウィンドウで多段階の注意とカスケード調整を行います。
また、補助的なタスクとして、オンライン アクション検出と対応するオフライン アクション セグメンテーションとの関連性を調べます。
このような追加の監督は、識別履歴クラスタリングに役立ち、分類器とカスケード洗練をより適切にトレーニングするための機能拡張として機能することがわかりました。
私たちが提案した方法は、THUMOS’14、TVSeries、および HDD の 3 つの挑戦的なデータセットで最先端のパフォーマンスを実現します。
コードは承認後に利用可能になります。

要約(オリジナル)

Online action detection aims at the accurate action prediction of the current frame based on long historical observations. Meanwhile, it demands real-time inference on online streaming videos. In this paper, we advocate a novel and efficient principle for online action detection. It merely updates the latest and oldest historical representations in one window but reuses the intermediate ones, which have been already computed. Based on this principle, we introduce a window-based cascade Transformer with a circular historical queue, where it conducts multi-stage attentions and cascade refinement on each window. We also explore the association between online action detection and its counterpart offline action segmentation as an auxiliary task. We find that such an extra supervision helps discriminative history clustering and acts as feature augmentation for better training the classifier and cascade refinement. Our proposed method achieves the state-of-the-art performances on three challenging datasets THUMOS’14, TVSeries, and HDD. Codes will be available after acceptance.

arxiv情報

著者 Shuqiang Cao,Weixin Luo,Bairui Wang,Wei Zhang,Lin Ma
発行日 2022-08-30 12:37:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク