Towards Zero-Shot Interpretable Human Recognition: A 2D-3D Registration Framework

要約

深層学習アーキテクチャに基づく大規模視覚モデルは、生体認証における最先端の技術を一貫して進歩させてきました。
ただし、この種のアプローチには 3 つの弱点が一般的に報告されています。1) 学習データに関する極端な要求。
2) 異なるドメイン間で一般化することの難しさ。
3) 解釈可能性/説明可能性の欠如。法医学/法的目的 (法廷など) に使用できる証拠を提供することが重要であるため、生体認証が特に重要です。
私たちの知る限り、この文書では 3 つの弱点に同時に対処することを目的とした最初の認識フレームワーク/戦略について説明します。
最初は、学習目的の合成サンプルのみに依存します。
被験者ごとに大量かつ多様なサンプルを必要とするのではなく、アイデンティティごとに 3D 点群を排他的に登録するというアイデアです。
次に、生成戦略を使用して、必要なすべての共変量 (ポーズ、服装、距離、視点、照明、オクルージョンなど) を含む非常に大量の (潜在的には無限の) サンプルを合成します。
使用される合成方法により、さまざまな種類のドメインに正確に適応することが可能となり、これにより一般化が可能になります。
次に、そのようなデータを使用して、画像ペア間のローカル位置合わせを実行するモデルを学習し、キーとなる身体部分間の確実な対応関係を確立し、認識 (カーディナリティと分布に従って) だけでなく、応答の解釈可能な説明も提供します。
(例: 「顔の形、髪の色、足の太さが似ているため、両方のサンプルは同じ人物からのものです」)。

要約(オリジナル)

Large vision models based in deep learning architectures have been consistently advancing the state-of-the-art in biometric recognition. However, three weaknesses are commonly reported for such kind of approaches: 1) their extreme demands in terms of learning data; 2) the difficulties in generalising between different domains; and 3) the lack of interpretability/explainability, with biometrics being of particular interest, as it is important to provide evidence able to be used for forensics/legal purposes (e.g., in courts). To the best of our knowledge, this paper describes the first recognition framework/strategy that aims at addressing the three weaknesses simultaneously. At first, it relies exclusively in synthetic samples for learning purposes. Instead of requiring a large amount and variety of samples for each subject, the idea is to exclusively enroll a 3D point cloud per identity. Then, using generative strategies, we synthesize a very large (potentially infinite) number of samples, containing all the desired covariates (poses, clothing, distances, perspectives, lighting, occlusions,…). Upon the synthesizing method used, it is possible to adapt precisely to different kind of domains, which accounts for generalization purposes. Such data are then used to learn a model that performs local registration between image pairs, establishing positive correspondences between body parts that are the key, not only to recognition (according to cardinality and distribution), but also to provide an interpretable description of the response (e.g.: ‘both samples are from the same person, as they have similar facial shape, hair color and legs thickness’).

arxiv情報

著者 Henrique Jesus,Hugo Proença
発行日 2024-06-26 13:01:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク