要約
Transformer モデルは、自然言語処理 (NLP) やコンピューター ビジョンなどの多くの分野で目覚ましい成功を収めています。
トランスベースのアーキテクチャへの関心が高まるにつれ、トランスベースのアーキテクチャはジェスチャ認識に利用されるようになりました。
そこで、私たちは動的な手のジェスチャーのための新しい ConvMixFormer アーキテクチャを探索し、考案しました。
トランスフォーマーは、連続データを使用してアテンション フィーチャの二次スケーリングを使用するため、これらのモデルは計算的に複雑で重くなります。
私たちはトランスフォーマーのこの欠点を考慮し、トランスフォーマーの自己注意を単純な畳み込み層ベースのトークン ミキサーに置き換えるリソース効率の高いモデルを設計しました。
畳み込みベースのミキサーに使用される計算コストとパラメーターは、二次セルフアテンションよりも比較的少なくなります。
畳み込みミキサーは、逐次処理の性質により自己注意では捉えるのが難しい局所的な空間特徴をモデルが捉えるのに役立ちます。
さらに、トランスフォーマー内の従来のフィードフォワード ネットワークの代わりに効率的なゲート メカニズムが採用され、提案されたモデルのさまざまなステージ内でのフィーチャのフローをモデルが制御できるようになります。
この設計では、学習可能なパラメーターの数が少なく、通常のトランスフォーマーのほぼ半分であり、高速かつ効率的なトレーニングに役立ちます。
提案された方法は、NVidia Dynamic Hand Gesture および Briareo データセットで評価され、私たちのモデルは単一およびマルチモーダル入力で最先端の結果を達成しました。
また、他の方法と比較した、提案された ConvMixFormer モデルのパラメーター効率も示しました。
ソース コードは https://github.com/mallikagarg/ConvMixFormer で入手できます。
要約(オリジナル)
Transformer models have demonstrated remarkable success in many domains such as natural language processing (NLP) and computer vision. With the growing interest in transformer-based architectures, they are now utilized for gesture recognition. So, we also explore and devise a novel ConvMixFormer architecture for dynamic hand gestures. The transformers use quadratic scaling of the attention features with the sequential data, due to which these models are computationally complex and heavy. We have considered this drawback of the transformer and designed a resource-efficient model that replaces the self-attention in the transformer with the simple convolutional layer-based token mixer. The computational cost and the parameters used for the convolution-based mixer are comparatively less than the quadratic self-attention. Convolution-mixer helps the model capture the local spatial features that self-attention struggles to capture due to their sequential processing nature. Further, an efficient gate mechanism is employed instead of a conventional feed-forward network in the transformer to help the model control the flow of features within different stages of the proposed model. This design uses fewer learnable parameters which is nearly half the vanilla transformer that helps in fast and efficient training. The proposed method is evaluated on NVidia Dynamic Hand Gesture and Briareo datasets and our model has achieved state-of-the-art results on single and multimodal inputs. We have also shown the parameter efficiency of the proposed ConvMixFormer model compared to other methods. The source code is available at https://github.com/mallikagarg/ConvMixFormer.
arxiv情報
著者 | Mallika Garg,Debashis Ghosh,Pyari Mohan Pradhan |
発行日 | 2024-11-11 16:45:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google