SkelVIT: Consensus of Vision Transformers for a Lightweight Skeleton-Based Action Recognition System

要約

スケルトンベースのアクション認識は、視点や照明の変化に対して堅牢であり、その処理がビデオ フレームの処理よりもはるかに効率的であるため、多くの研究者の注目を集めています。
深層学習モデルの出現により、スケルトン データを擬似画像形式で表現し、CNN を動作認識に適用することが非常に一般的になりました。
その後、擬似画像を形成する効果的な方法を見つけることに研究が集中しました。
最近、アテンション ネットワーク、より具体的には変圧器が、さまざまな視覚の問題に対して有望な結果をもたらしています。
本研究では、スケルトンベースの動作認識に対する VIT の有効性を検証し、擬似画像表現スキームに対する VIT のロバスト性を調査します。
この目的を達成するために、3 レベルのアーキテクチャである SkelVit が提案されています。これは、一連の疑似画像を形成し、それぞれの表現に分類子を適用し、その結果を組み合わせて最終的なアクション クラスを見つけます。
SkelVit のパフォーマンスは一連の実験によって徹底的に検査されます。
まず、システムの表現に対する感度を、2 つの最先端の擬似画像表現方法と比較することによって調査します。
次に、SkelVit の分類器を CNN と VIT による 2 つの実験セットアップで実現し、その性能を比較します。
最後の実験設定では、異なる数の分類器を使用してモデルを適用することにより、分類器の組み合わせの寄与が検査されます。
実験研究により、軽量表現スキームを備えた提案されたシステムが最先端の方法よりも優れた結果を達成することが明らかになりました。
また、ビジョン トランスフォーマーは、CNN と比較して、初期の疑似画像表現に対する感度が低いことも観察されます。
それにもかかわらず、ビジョントランスフォーマーを使用しても、分類器の合意によって認識パフォーマンスをさらに向上させることができます。

要約(オリジナル)

Skeleton-based action recognition receives the attention of many researchers as it is robust to viewpoint and illumination changes, and its processing is much more efficient than the processing of video frames. With the emergence of deep learning models, it has become very popular to represent the skeleton data in pseudo-image form and apply CNN for action recognition. Thereafter, studies concentrated on finding effective methods for forming pseudo-images. Recently, attention networks, more specifically transformers have provided promising results in various vision problems. In this study, the effectiveness of VIT for skeleton-based action recognition is examined and its robustness on the pseudo-image representation scheme is investigated. To this end, a three-level architecture, SkelVit is proposed, which forms a set of pseudo images, applies a classifier on each of the representations, and combines their results to find the final action class. The performance of SkelVit is examined thoroughly via a set of experiments. First, the sensitivity of the system to representation is investigated by comparing it with two of the state-of-the-art pseudo-image representation methods. Then, the classifiers of SkelVit are realized in two experimental setups by CNNs and VITs, and their performances are compared. In the final experimental setup, the contribution of combining classifiers is examined by applying the model with a different number of classifiers. Experimental studies reveal that the proposed system with its lightweight representation scheme achieves better results than the state-of-the-art methods. It is also observed that the vision transformer is less sensitive to the initial pseudo-image representation compared to CNN. Nevertheless, even with the vision transformer, the recognition performance can be further improved by the consensus of classifiers.

arxiv情報

著者 Ozge Oztimur Karadag
発行日 2024-03-07 07:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク