Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF

要約

Vision Transformers(VITS)は、顔や身体認識など、幅広い生体認証タスクで印象的なパフォーマンスを実証しています。
この作業では、可視(vis)画像で前処理されたVITモデルを、目に見えるおよび赤外線(IR)ドメインでキャプチャされた画像を一致させることを含む、クロススペクトルの身体認識の挑戦的な問題に適応します。
最近のVITアーキテクチャは、従来の位置埋め込みを超えて追加の埋め込みを組み込むことを調査しました。
このアイデアに基づいて、サイド情報埋め込み(SIE)を統合し、ドメインとカメラ情報のエンコードの影響を調べて、クロススペクトルマッチングを強化します。
驚くべきことに、我々の結果は、カメラ情報のみをエンコードすることは、ドメイン情報を明示的に組み込むことなく、LLCMデータセットで最先端のパフォーマンスを達成することを示しています。
目に見えるスペクトルの人の再識別(Reid)で閉塞処理が広く研究されていますが、目に見える混乱(vi)のオクルージョンは、主にLLCM、sysu-MM01、およびregdb、主にフルボディ、閉じ込めのイメージなどの既存のVI-REIDデータセットを大部分が露出していないままです。
このギャップに対処するために、IARPA Janus Benchmark Multi-Domain Face(IJB-MDF)データセットを使用して、さまざまな距離でキャプチャされた可視および赤外線画像の多様なセットを提供し、横断的な横断的評価を可能にする多様な目に見える画像のセットを提供する範囲誘導閉塞の影響を分析します。

要約(オリジナル)

Vision Transformers (ViTs) have demonstrated impressive performance across a wide range of biometric tasks, including face and body recognition. In this work, we adapt a ViT model pretrained on visible (VIS) imagery to the challenging problem of cross-spectral body recognition, which involves matching images captured in the visible and infrared (IR) domains. Recent ViT architectures have explored incorporating additional embeddings beyond traditional positional embeddings. Building on this idea, we integrate Side Information Embedding (SIE) and examine the impact of encoding domain and camera information to enhance cross-spectral matching. Surprisingly, our results show that encoding only camera information – without explicitly incorporating domain information – achieves state-of-the-art performance on the LLCM dataset. While occlusion handling has been extensively studied in visible-spectrum person re-identification (Re-ID), occlusions in visible-infrared (VI) Re-ID remain largely underexplored – primarily because existing VI-ReID datasets, such as LLCM, SYSU-MM01, and RegDB, predominantly feature full-body, unoccluded images. To address this gap, we analyze the impact of range-induced occlusions using the IARPA Janus Benchmark Multi-Domain Face (IJB-MDF) dataset, which provides a diverse set of visible and infrared images captured at various distances, enabling cross-range, cross-spectral evaluations.

arxiv情報

著者 Anirudh Nanduri,Siyuan Huang,Rama Chellappa
発行日 2025-06-10 16:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク