Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy

要約

アクション認識は、コンピューター ビジョンにおける人気の研究トピックの 1 つになっています。
競争力のあるパフォーマンスを達成する行動認識タスクの空間的次元と時間的次元の両方の問題を解決するための、畳み込みネットワークとトランスフォーマーとしての自己注意メカニズムに基づくさまざまな方法があります。
ただし、これらの方法には、モデルが注目する行動主体の正確さ、つまり、行動認識モデルが適切な行動主体に焦点を当てて合理的な行動予測を行うことを保証する方法が保証されていません。
この論文では、有向グロモフ・ワッサーシュタイン不一致を使用して、アクションビデオの 2 つの異なるビューからの 2 つの注意の間の類似性を計算する、マルチビュー注意一貫性手法を提案します。
さらに、私たちのアプローチはニューラル ラディアンス フィールドのアイデアを適用して、シングルビュー データセットでトレーニングするときに新しいビューからの特徴を暗黙的にレンダリングします。
したがって、この研究における貢献は 3 つあります。
まず、行動認識における合理的な予測の問題を解決するために、多視点注意の一貫性を導入します。
次に、有向グロモフ・ワッサーシュタイン不一致を使用して、マルチビューの一貫した注意のための新しい指標を定義します。
第三に、ビデオトランスフォーマーとニューラルラディアンスフィールドに基づいてアクション認識モデルを構築しました。
最近の行動認識手法と比較して、提案されたアプローチは、3 つの大規模データセット、つまり Jester、Something-Something V2、および Kinetics-400 で最先端の結果を達成します。

要約(オリジナル)

Action recognition has become one of the popular research topics in computer vision. There are various methods based on Convolutional Networks and self-attention mechanisms as Transformers to solve both spatial and temporal dimensions problems of action recognition tasks that achieve competitive performances. However, these methods lack a guarantee of the correctness of the action subject that the models give attention to, i.e., how to ensure an action recognition model focuses on the proper action subject to make a reasonable action prediction. In this paper, we propose a multi-view attention consistency method that computes the similarity between two attentions from two different views of the action videos using Directed Gromov-Wasserstein Discrepancy. Furthermore, our approach applies the idea of Neural Radiance Field to implicitly render the features from novel views when training on single-view datasets. Therefore, the contributions in this work are three-fold. Firstly, we introduce the multi-view attention consistency to solve the problem of reasonable prediction in action recognition. Secondly, we define a new metric for multi-view consistent attention using Directed Gromov-Wasserstein Discrepancy. Thirdly, we built an action recognition model based on Video Transformers and Neural Radiance Fields. Compared to the recent action recognition methods, the proposed approach achieves state-of-the-art results on three large-scale datasets, i.e., Jester, Something-Something V2, and Kinetics-400.

arxiv情報

著者 Hoang-Quan Nguyen,Thanh-Dat Truong,Khoa Luu
発行日 2024-05-02 14:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク