FaceCoresetNet: Differentiable Coresets for Face Set Recognition

要約

セットベースの顔認識では、1 人の人物を映す無制限の画像とビデオのセットから最も識別力の高い記述子を計算することを目指しています。
識別記述子は、特定のセットから情報を集約するときに 2 つのポリシーのバランスをとります。
1 つ目は、品質ベースのポリシーです。つまり、高品質を強調し、低品質の画像の重みを下げることです。
2 つ目は、多様性に基づくポリシーです。セット内の固有の画像を強調し、セットの表現を圧倒する可能性があるビデオ クリップ内で見つかった類似の画像の複数の出現を軽視します。
これは、フェイスセット表現を微分可能なコアセット選択問題として組み立てます。
私たちのモデルは、顔の品質によってパラメータ化され、エンドツーエンドで最適化された学習メトリックを使用して、品質と多様性ポリシーのバランスを取る入力セットの小さなコアセットを選択する方法を学習します。
選択プロセスは、微分不可能な Argmax 演算を距離のガンベル ソフトマックス分布からの微分可能なサンプリングで近似することによって実現される微分可能な最遠点サンプリング (FPS) です。
小さなコアセットは、後でセルフおよびクロスアテンション アーキテクチャのクエリとして使用され、セット全体からの情報で記述子を強化します。
私たちのモデルは順序不変で、入力セットのサイズが線形です。
IJB-B および IJB-C データセットに顔認証を設定するための新しい SOTA を設定しました。
私たちのコードは公開されています。

要約(オリジナル)

In set-based face recognition, we aim to compute the most discriminative descriptor from an unbounded set of images and videos showing a single person. A discriminative descriptor balances two policies when aggregating information from a given set. The first is a quality-based policy: emphasizing high-quality and down-weighting low-quality images. The second is a diversity-based policy: emphasizing unique images in the set and down-weighting multiple occurrences of similar images as found in video clips which can overwhelm the set representation. This work frames face-set representation as a differentiable coreset selection problem. Our model learns how to select a small coreset of the input set that balances quality and diversity policies using a learned metric parameterized by the face quality, optimized end-to-end. The selection process is a differentiable farthest-point sampling (FPS) realized by approximating the non-differentiable Argmax operation with differentiable sampling from the Gumbel-Softmax distribution of distances. The small coreset is later used as queries in a self and cross-attention architecture to enrich the descriptor with information from the whole set. Our model is order-invariant and linear in the input set size. We set a new SOTA to set face verification on the IJB-B and IJB-C datasets. Our code is publicly available.

arxiv情報

著者 Gil Shapira,Yosi Keller
発行日 2023-12-13 12:29:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク