Early Action Recognition with Action Prototypes

要約

早期のアクション認識は、アクティビティが未完了であるか開始されていない可能性がある部分的に観察されたビデオ ストリームからのアクションの認識を可能にする重要かつ困難な問題です。
この研究では、各クラスの完全なアクションのプロトタイプ表現を学習し、それを使用してアーキテクチャと部分的な観察の視覚的表現を正規化する新しいモデルを提案します。
私たちのモデルは設計が非常にシンプルで効率的です。
ビデオを短いクリップに分解し、ビジュアル エンコーダーが各クリップから個別に特徴を抽出します。
その後、デコーダがすべてのクリップの特徴をオンライン形式で集約し、最終的なクラス予測を行います。
トレーニング中、部分的な観測ごとに、ラベルと正則化機能として機能するアクションのプロトタイプ表現の両方を予測するためにモデルが共同でトレーニングされます。
私たちは複数の困難な現実世界のデータセットで私たちの手法を評価し、現在の最先端の手法を大幅に上回りました。
たとえば、各ビデオの最初の 10% のみを観察する早期認識では、私たちの方法により SOTA が Something-Something-v2 で +2.23 Top-1 精度、UCF-101 で +3.55、SSsub21 で +3.68、および +5.03 向上します。
EPIC-Kitchens-55 では、以前の研究ではマルチモーダル入力 (オプティカル フローなど) またはバッチ推論のいずれかを使用していました。
最後に、私たちが行った設計選択の動機付けとなる徹底的なアブレーション研究も提示し、モデルが意味的に何を学習しているのかに関する洞察を収集します。

要約(オリジナル)

Early action recognition is an important and challenging problem that enables the recognition of an action from a partially observed video stream where the activity is potentially unfinished or even not started. In this work, we propose a novel model that learns a prototypical representation of the full action for each class and uses it to regularize the architecture and the visual representations of the partial observations. Our model is very simple in design and also efficient. We decompose the video into short clips, where a visual encoder extracts features from each clip independently. Later, a decoder aggregates together in an online fashion features from all the clips for the final class prediction. During training, for each partial observation, the model is jointly trained to both predict the label as well as the action prototypical representation which acts as a regularizer. We evaluate our method on multiple challenging real-world datasets and outperform the current state-of-the-art by a significant margin. For example, on early recognition observing only the first 10% of each video, our method improves the SOTA by +2.23 Top-1 accuracy on Something-Something-v2, +3.55 on UCF-101, +3.68 on SSsub21, and +5.03 on EPIC-Kitchens-55, where prior work used either multi-modal inputs (e.g. optical-flow) or batched inference. Finally, we also present exhaustive ablation studies to motivate the design choices we made, as well as gather insights regarding what our model is learning semantically.

arxiv情報

著者 Guglielmo Camporese,Alessandro Bergamo,Xunyu Lin,Joseph Tighe,Davide Modolo
発行日 2023-12-11 18:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク