Faceptor: A Generalist Model for Face Perception

要約

さまざまな顔分析タスクについて包括的な研究が実施されるにつれ、顔認識に対する統一的なアプローチを開発することへの研究者の関心が高まっています。
既存の方法では主に統一表現とトレーニングについて説明していますが、タスクの拡張性やアプリケーションの効率性が欠けています。
この問題に取り組むために、私たちは統一モデル構造に焦点を当て、顔のジェネラリスト モデルを探索します。
Naive Faceptor は、直感的な設計により、同じ出力形状と粒度のタスクが標準化された出力ヘッドの構造設計を共有できるようにし、タスクの拡張性の向上を実現します。
さらに、Faceptor は、適切に設計されたシングル エンコーダ デュアル デコーダ アーキテクチャを採用し、タスク固有のクエリで新しいセマンティクスを表現できるようにすることが提案されています。
この設計により、モデル構造の統合が強化されると同時に、ストレージのオーバーヘッドの観点からアプリケーションの効率が向上します。
さらに、レイヤーアテンションを Faceptor に導入し、モデルが最適なレイヤーから特徴を適応的に選択して目的のタスクを実行できるようにします。
Faceptor は、13 の顔認識データセットの共同トレーニングを通じて、顔のランドマーク位置特定、顔解析、年齢推定、表情認識、バイナリ属性分類、および顔認識において優れたパフォーマンスを達成し、ほとんどのタスクで特殊な手法を達成または上回ることができます。
私たちのトレーニング フレームワークは補助的な教師あり学習にも適用でき、年齢推定や表情認識などのデータがまばらなタスクのパフォーマンスを大幅に向上させます。
コードとモデルは https://github.com/lxq1000/Faceptor で公開されます。

要約(オリジナル)

With the comprehensive research conducted on various face analysis tasks, there is a growing interest among researchers to develop a unified approach to face perception. Existing methods mainly discuss unified representation and training, which lack task extensibility and application efficiency. To tackle this issue, we focus on the unified model structure, exploring a face generalist model. As an intuitive design, Naive Faceptor enables tasks with the same output shape and granularity to share the structural design of the standardized output head, achieving improved task extensibility. Furthermore, Faceptor is proposed to adopt a well-designed single-encoder dual-decoder architecture, allowing task-specific queries to represent new-coming semantics. This design enhances the unification of model structure while improving application efficiency in terms of storage overhead. Additionally, we introduce Layer-Attention into Faceptor, enabling the model to adaptively select features from optimal layers to perform the desired tasks. Through joint training on 13 face perception datasets, Faceptor achieves exceptional performance in facial landmark localization, face parsing, age estimation, expression recognition, binary attribute classification, and face recognition, achieving or surpassing specialized methods in most tasks. Our training framework can also be applied to auxiliary supervised learning, significantly improving performance in data-sparse tasks such as age estimation and expression recognition. The code and models will be made publicly available at https://github.com/lxq1000/Faceptor.

arxiv情報

著者 Lixiong Qin,Mei Wang,Xuannan Liu,Yuhang Zhang,Wei Deng,Xiaoshuai Song,Weiran Xu,Weihong Deng
発行日 2024-03-14 15:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク