Deep set conditioned latent representations for action recognition

要約

近年、マルチラベル、マルチクラスのビデオ アクション認識が非常に人気を博しています。
時間的に接続された原子の動作を推論することは、知的種にとってありふれたことですが、標準的な人工ニューラル ネットワーク (ANN) は依然としてそれらを分類するのに苦労しています。
現実の世界では、アトミック アクションが一時的に接続されて、より複雑な複合アクションを形成することがよくあります。
課題は、他の異なる複合または原子アクションがバックグラウンドで発生している間に、さまざまな期間の複合アクションを認識することにあります。
リレーショナル ネットワークの成功を利用して、オブジェクトとアクションのセマンティック コンセプトを推論する方法を提案します。
ANNが事前トレーニング、リレーショナル誘導バイアス、および順序付けられていないセットベースの潜在表現からどのように恩恵を受けるかを経験的に示します。
この論文では、ディープ セット条件付き I3D (SCI3D) を提案します。これは、状態の潜在的な表現と、イベントとアクションを推論するための視覚的表現を使用する 2 つのストリーム リレーショナル ネットワークです。
彼らは、ビデオ内のすべてのアクションを識別するために、時間的に関連するアクションについて推論することを学びます。
提案された方法は、CATER データセットで、I3D-NL ベースラインを超えて、アトミック アクション認識で約 1.49% mAP、複合アクション認識で 17.57% mAP の改善を達成します。

要約(オリジナル)

In recent years multi-label, multi-class video action recognition has gained significant popularity. While reasoning over temporally connected atomic actions is mundane for intelligent species, standard artificial neural networks (ANN) still struggle to classify them. In the real world, atomic actions often temporally connect to form more complex composite actions. The challenge lies in recognising composite action of varying durations while other distinct composite or atomic actions occur in the background. Drawing upon the success of relational networks, we propose methods that learn to reason over the semantic concept of objects and actions. We empirically show how ANNs benefit from pretraining, relational inductive biases and unordered set-based latent representations. In this paper we propose deep set conditioned I3D (SCI3D), a two stream relational network that employs latent representation of state and visual representation for reasoning over events and actions. They learn to reason about temporally connected actions in order to identify all of them in the video. The proposed method achieves an improvement of around 1.49% mAP in atomic action recognition and 17.57% mAP in composite action recognition, over a I3D-NL baseline, on the CATER dataset.

arxiv情報

著者 Akash Singh,Tom De Schepper,Kevin Mets,Peter Hellinckx,Jose Oramas,Steven Latre
発行日 2022-12-21 14:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク