TopoFR: A Closer Look at Topology Alignment on Face Recognition

要約

顔認識 (FR) の分野は、ディープラーニングの台頭により大幅な進歩を遂げました。
最近、教師なし学習とグラフ ニューラル ネットワークの成功により、データ構造情報の有効性が実証されました。
FR タスクは本質的に重要な構造情報を含む大規模なトレーニング データを活用できることを考慮して、そのような重要な構造情報を潜在空間にエンコードする方法を調査することを目的としています。
私たちの観察から明らかになったように、入力空間と潜在空間の間で構造情報を直接位置合わせすると、必然的に過剰適合の問題が発生し、潜在空間での構造崩壊現象が発生します。
この問題に対処するために、我々は、PTSA と呼ばれるトポロジカル構造アライメント戦略と SDE と呼ばれるハード サンプル マイニング戦略を活用する新しい FR モデルである TopoFR を提案します。
具体的には、PTSA は永続的な相同性を使用して入力空間と潜在空間の位相構造を調整し、構造情報を効果的に保存し、FR モデルの汎化パフォーマンスを向上させます。
潜在空間構造に対する硬いサンプルの影響を軽減するために、SDE は各サンプルの構造損傷スコア (SDS) を自動的に計算することで硬いサンプルを正確に識別し、これらのサンプルの最適化を優先するようにモデルに指示します。
一般的な顔のベンチマークに関する実験結果は、最先端の方法よりも当社の TopoFR が優れていることを示しています。
コードとモデルは、https://github.com/modelscope/facechain/tree/main/face_module/TopoFR から入手できます。

要約(オリジナル)

The field of face recognition (FR) has undergone significant advancements with the rise of deep learning. Recently, the success of unsupervised learning and graph neural networks has demonstrated the effectiveness of data structure information. Considering that the FR task can leverage large-scale training data, which intrinsically contains significant structure information, we aim to investigate how to encode such critical structure information into the latent space. As revealed from our observations, directly aligning the structure information between the input and latent spaces inevitably suffers from an overfitting problem, leading to a structure collapse phenomenon in the latent space. To address this problem, we propose TopoFR, a novel FR model that leverages a topological structure alignment strategy called PTSA and a hard sample mining strategy named SDE. Concretely, PTSA uses persistent homology to align the topological structures of the input and latent spaces, effectively preserving the structure information and improving the generalization performance of FR model. To mitigate the impact of hard samples on the latent space structure, SDE accurately identifies hard samples by automatically computing structure damage score (SDS) for each sample, and directs the model to prioritize optimizing these samples. Experimental results on popular face benchmarks demonstrate the superiority of our TopoFR over the state-of-the-art methods. Code and models are available at: https://github.com/modelscope/facechain/tree/main/face_module/TopoFR.

arxiv情報

著者 Jun Dan,Yang Liu,Jiankang Deng,Haoyu Xie,Siyuan Li,Baigui Sun,Shan Luo
発行日 2024-10-14 14:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク