Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition

要約

静脈認証は、高いセキュリティ、高いプライバシー、生体認証などの利点から、近年ますます注目を集めています。
最近、Mamba などの深層学習モデルは、線形計算複雑性を備えた堅牢な特徴表現を示し、視覚タスクへの適用に成功しました。
ただし、Vision Manba は長距離のフィーチャの依存関係をキャプチャできますが、残念ながらローカル フィーチャの詳細は劣化します。
さらに、人間の事前知識に基づいて Mamba アーキテクチャを手動で設計することは、非常に時間がかかり、エラーが発生しやすくなります。
本稿では、まず、静脈特徴表現のための画像内の局所的な相関関係とトークン間の大域的な依存関係を明示的に学習するための、Global-local Vision Mamba (GLVM) と呼ばれるハイブリッドネットワーク構造を提案します。
次に、ビジョンMambaの特徴表現能力を向上させるために、さまざまな方向に沿った依存関係を学習するマルチヘッドMambaを設計します。
第三に、補完的な特徴を学習するために、マルチヘッド マンバ ブランチ (MHMamba)、特徴反復ユニット ブランチ (FIU)、および畳み込みニューラル ネットワーク (CNN) ブランチという名前の 3 つのブランチで構成される ConvMamba ブロックを提案します。
ブランチは、畳み込みローカル特徴と Mamba ベースのグローバル表現を融合することを目的としています。
最後に、GLVM の最適なアーキテクチャを進化的アルゴリズムと交互に探索する Globallocal Alternate Neural Architecture Search (GLNAS) 手法を提案し、それによって静脈認識タスクの認識パフォーマンスを向上させます。
私たちは、パフォーマンスを推定するために、3 つの公開手のひら静脈データベースに対して厳密な実験を実施しました。
実験結果は、提案された方法が代表的なアプローチを上回り、最先端の認識精度を達成することを示しています。

要約(オリジナル)

Due to the advantages such as high security, high privacy, and liveness recognition, vein recognition has been received more and more attention in past years. Recently, deep learning models, e.g., Mamba has shown robust feature representation with linear computational complexity and successfully applied for visual tasks. However, vision Manba can capture long-distance feature dependencies but unfortunately deteriorate local feature details. Besides, manually designing a Mamba architecture based on human priori knowledge is very time-consuming and error-prone. In this paper, first, we propose a hybrid network structure named Global-local Vision Mamba (GLVM), to learn the local correlations in images explicitly and global dependencies among tokens for vein feature representation. Secondly, we design a Multi-head Mamba to learn the dependencies along different directions, so as to improve the feature representation ability of vision Mamba. Thirdly, to learn the complementary features, we propose a ConvMamba block consisting of three branches, named Multi-head Mamba branch (MHMamba), Feature Iteration Unit branch (FIU), and Convolutional Neural Network (CNN) branch, where the Feature Iteration Unit branch aims to fuse convolutional local features with Mamba-based global representations. Finally, a Globallocal Alternate Neural Architecture Search (GLNAS) method is proposed to search the optimal architecture of GLVM alternately with the evolutionary algorithm, thereby improving the recognition performance for vein recognition tasks. We conduct rigorous experiments on three public palm-vein databases to estimate the performance. The experimental results demonstrate that the proposed method outperforms the representative approaches and achieves state-of-the-art recognition accuracy.

arxiv情報

著者 Huafeng Qin,Yuming Fu,Jing Chen,Mounim A. El-Yacoubi,Xinbo Gao,Jun Wang
発行日 2024-08-13 13:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク