Act-VIT: A Representationally Robust Attention Architecture for Skeleton Based Action Recognition Using Vision Transformer

要約

スケルトンベースのアクション認識は、視点や照明の変化に対して堅牢であり、その処理がビデオ フレームよりもはるかに効率的であるため、多くの研究者の注目を集めています。
深層学習モデルの出現により、スケルトン データを擬似画像形式で表現し、畳み込みニューラル ネットワークを動作認識に適用することが非常に一般的になりました。
その後、擬似画像を形成する効果的な方法を見つけることに研究が集中しました。
最近、アテンション ネットワーク、より具体的には変圧器が、さまざまな視覚の問題に対して有望な結果をもたらしています。
本研究では、スケルトンベースの動作認識に対するビジョントランスフォーマーの有効性を検証し、擬似画像表現スキームに対するそのロバスト性を調査します。
この目的を達成するために、3 レベルのアーキテクチャである Act-VIT が提案されています。これは、疑似画像のセットを形成し、それぞれの表現に分類子を適用し、その結果を組み合わせて最終的なアクション クラスを見つけます。
Act-VIT の分類器は、まず CNN によって実現され、次に VIT によって実現され、そのパフォーマンスが比較されます。
実験研究により、ビジョン トランスフォーマーは CNN と比較して初期の疑似画像表現に対する感度が低いことが明らかになりました。
それにもかかわらず、ビジョントランスフォーマーを使用しても、分類器の合意によって認識パフォーマンスをさらに向上させることができます。

要約(オリジナル)

Skeleton-based action recognition receives the attention of many researchers as it is robust to viewpoint and illumination changes, and its processing is much more efficient than video frames. With the emergence of deep learning models, it has become very popular to represent the skeleton data in pseudo-image form and apply Convolutional Neural Networks for action recognition. Thereafter, studies concentrated on finding effective methods for forming pseudo-images. Recently, attention networks, more specifically transformers have provided promising results in various vision problems. In this study, the effectiveness of vision transformers for skeleton-based action recognition is examined and its robustness on the pseudo-image representation scheme is investigated. To this end, a three-level architecture, Act-VIT is proposed, which forms a set of pseudo images apply a classifier on each of the representation and combine their results to find the final action class. The classifiers of Act-VIT are first realized by CNNs and then by VITs and their performances are compared. Experimental studies reveal that the vision transformer is less sensitive to the initial pseudo-image representation compared to CNN. Nevertheless, even with the vision transformer, the recognition performance can be further improved by consensus of classifiers.

arxiv情報

著者 Ozge Oztimur Karadag
発行日 2023-11-14 11:38:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク