Transformer-Based Auxiliary Loss for Face Recognition Across Age Variations

要約

老化は、肌のテクスチャーとトーンの変化が時間の経過とともに顔の特徴を変える可能性があり、長期的な識別シナリオなどの同じ個人の画像を比較することを特に困難にする可能性があるため、顔認識に大きな課題をもたらします。
トランスネットワークには、老化効果によって引き起こされる連続的な空間関係を維持する強度があります。
このホワイトペーパーでは、トランスネットワークを顔認識ドメインの加算損失として使用する損失評価の手法を提示します。
通常、標準のメトリック損失関数は、通常、メインCNNバックボーンの最終埋め込みをその入力として使用します。
ここでは、トランスメトリック損失を採用しています。これは、変圧器の損失とメートルコの両方を統合するアプローチです。
この研究は、CNNの結果が連続ベクターに配置されたときに、畳み込み出力での変圧器の挙動を分析する予定です。
これらのシーケンシャルベクターは、老化の影響を受けるしわまたは垂れ下がった皮膚と呼ばれるテクスチャまたは領域構造を克服する可能性があります。
トランスエンコーダーは、ネットワークの最終畳み込み層から得られたコンテキストベクトルから入力を受けます。
学習された機能は、より年齢不変であり、標準メトリック損失の埋め込みの識別力を補完することができます。
この手法を使用すると、さまざまなベースメトリック損失関数を使用して変圧器損失を使用して、複合損失関数の効果を評価します。
このような構成により、ネットワークはLFWおよび年齢変化データセット(CA-LFWおよびAGEDB)でSOTA結果を達成できることがわかります。
この研究は、マシンビジョンドメインにおけるトランスの役割を拡大し、損失関数として変圧器を探索するための新しい可能性を開きます。

要約(オリジナル)

Aging presents a significant challenge in face recognition, as changes in skin texture and tone can alter facial features over time, making it particularly difficult to compare images of the same individual taken years apart, such as in long-term identification scenarios. Transformer networks have the strength to preserve sequential spatial relationships caused by aging effect. This paper presents a technique for loss evaluation that uses a transformer network as an additive loss in the face recognition domain. The standard metric loss function typically takes the final embedding of the main CNN backbone as its input. Here, we employ a transformer-metric loss, a combined approach that integrates both transformer-loss and metric-loss. This research intends to analyze the transformer behavior on the convolution output when the CNN outcome is arranged in a sequential vector. These sequential vectors have the potential to overcome the texture or regional structure referred to as wrinkles or sagging skin affected by aging. The transformer encoder takes input from the contextual vectors obtained from the final convolution layer of the network. The learned features can be more age-invariant, complementing the discriminative power of the standard metric loss embedding. With this technique, we use transformer loss with various base metric-loss functions to evaluate the effect of the combined loss functions. We observe that such a configuration allows the network to achieve SoTA results in LFW and age-variant datasets (CA-LFW and AgeDB). This research expands the role of transformers in the machine vision domain and opens new possibilities for exploring transformers as a loss function.

arxiv情報

著者 Pritesh Prakash,Ashish Jacob Sam,S Umamaheswaran
発行日 2025-01-29 10:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.5.2 パーマリンク