SegFace: Face Segmentation of Long-Tail Classes

要約

顔解析とは、人間の顔を目、鼻、髪などの主要な顔領域にセマンティック セグメンテーションすることを指します。これは、顔の編集、顔の交換、顔のメイクなど、多くの場合セグメンテーション マスクを必要とするさまざまな高度なアプリケーションの前提条件として機能します。
メガネ、帽子、イヤリング、ネックレスなどのクラスに。
これらのまれに発生するクラスはロングテール クラスと呼ばれ、ヘッド クラスとして知られるより頻繁に発生するクラスの影に隠れています。
主に CNN ベースの既存のメソッドは、トレーニング中にヘッド クラスによって支配される傾向があり、その結果、ロングテール クラスの表現が最適化されていません。
これまでの研究では、ロングテール クラスのセグメンテーション パフォーマンスが低いという問題がほとんど見落とされてきました。
この問題に対処するために、学習可能なクラス固有のトークンを利用する軽量のトランスフォーマーベースのモデルを使用するシンプルで効率的なアプローチである SegFace を提案します。
トランスフォーマー デコーダはクラス固有のトークンを活用し、各トークンが対応するクラスに焦点を当てることができるため、各クラスの独立したモデリングが可能になります。
提案されたアプローチにより、ロングテール クラスのパフォーマンスが向上し、それによって全体のパフォーマンスが向上します。
私たちの知る限り、SegFace は顔解析にトランスフォーマー モデルを採用した最初の作品です。
さらに、私たちのアプローチは低コンピューティングのエッジ デバイスにも適用でき、95.96 FPS を達成します。
私たちは広範な実験を実施し、SegFace が以前の最先端モデルを大幅に上回るパフォーマンスを示し、CelebAMask-HQ データセットでは 88.96 (+2.82)、LaPa データセットでは 93.03 (+0.65) の平均 F1 スコアを達成しました。
コード: https://github.com/Kartik-3004/SegFace

要約(オリジナル)

Face parsing refers to the semantic segmentation of human faces into key facial regions such as eyes, nose, hair, etc. It serves as a prerequisite for various advanced applications, including face editing, face swapping, and facial makeup, which often require segmentation masks for classes like eyeglasses, hats, earrings, and necklaces. These infrequently occurring classes are called long-tail classes, which are overshadowed by more frequently occurring classes known as head classes. Existing methods, primarily CNN-based, tend to be dominated by head classes during training, resulting in suboptimal representation for long-tail classes. Previous works have largely overlooked the problem of poor segmentation performance of long-tail classes. To address this issue, we propose SegFace, a simple and efficient approach that uses a lightweight transformer-based model which utilizes learnable class-specific tokens. The transformer decoder leverages class-specific tokens, allowing each token to focus on its corresponding class, thereby enabling independent modeling of each class. The proposed approach improves the performance of long-tail classes, thereby boosting overall performance. To the best of our knowledge, SegFace is the first work to employ transformer models for face parsing. Moreover, our approach can be adapted for low-compute edge devices, achieving 95.96 FPS. We conduct extensive experiments demonstrating that SegFace significantly outperforms previous state-of-the-art models, achieving a mean F1 score of 88.96 (+2.82) on the CelebAMask-HQ dataset and 93.03 (+0.65) on the LaPa dataset. Code: https://github.com/Kartik-3004/SegFace

arxiv情報

著者 Kartik Narayan,Vibashan VS,Vishal M. Patel
発行日 2024-12-11 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク