要約
効果的な人物の再識別 (Re-Id) には、画像から代表的で堅牢な識別情報を学習することが不可欠です。
この論文では、身体と手の画像の両方に基づいて人の Re-Id に対するエンドツーエンドの識別深い特徴学習のための複合アプローチを提案します。
私たちは、空間アテンション用の 1 つのブランチ、チャネル アテンション用の 1 つのブランチ、グローバル フィーチャ表現用の 1 つのブランチ、およびローカル フィーチャ表現用の別のブランチで構成されるマルチブランチ ディープ ネットワーク アーキテクチャである Local-Aware Global Attendant Network (LAGA-Net) を慎重に設計しています。
。
注意ブランチは、無関係な背景を抑制しながら、画像の関連する特徴に焦点を当てます。
ピクセルシャッフリングと同様のアテンションメカニズムの弱点を克服するために、相対位置エンコーディングを空間アテンションモジュールに統合して、ピクセルの空間位置をキャプチャします。
グローバル ブランチは、グローバル コンテキストまたは構造情報を保存することを目的としています。
きめの細かい情報を取得することを目的としたローカル ブランチの場合は、均一分割を実行して conv 層に水平方向にストライプを生成します。
画像を明示的に分割したり、姿勢推定などの外部キューを必要とせずに、ソフトパーティションを実行することでパーツを取得します。
一連のアブレーション研究では、各コンポーネントが LAGA-Net のパフォーマンス向上に貢献していることが示されています。
4 つの一般的な身体ベースの人物 Re-Id ベンチマークと 2 つの公的に利用可能な手のデータセットに関する広範な評価により、私たちの提案された手法が既存の最先端の手法を一貫して上回ることが実証されました。
要約(オリジナル)
Learning representative, robust and discriminative information from images is essential for effective person re-identification (Re-Id). In this paper, we propose a compound approach for end-to-end discriminative deep feature learning for person Re-Id based on both body and hand images. We carefully design the Local-Aware Global Attention Network (LAGA-Net), a multi-branch deep network architecture consisting of one branch for spatial attention, one branch for channel attention, one branch for global feature representations and another branch for local feature representations. The attention branches focus on the relevant features of the image while suppressing the irrelevant backgrounds. In order to overcome the weakness of the attention mechanisms, equivariant to pixel shuffling, we integrate relative positional encodings into the spatial attention module to capture the spatial positions of pixels. The global branch intends to preserve the global context or structural information. For the the local branch, which intends to capture the fine-grained information, we perform uniform partitioning to generate stripes on the conv-layer horizontally. We retrieve the parts by conducting a soft partition without explicitly partitioning the images or requiring external cues such as pose estimation. A set of ablation study shows that each component contributes to the increased performance of the LAGA-Net. Extensive evaluations on four popular body-based person Re-Id benchmarks and two publicly available hand datasets demonstrate that our proposed method consistently outperforms existing state-of-the-art methods.
arxiv情報
著者 | Nathanael L. Baisa |
発行日 | 2024-07-01 13:50:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google