要約
この研究では、顔解析、ランドマーク検出、頭姿勢推定、属性認識、年齢、性別、人種、性別の推定などの包括的な顔分析タスクのためのエンドツーエンドの統合トランスフォーマー モデルである FaceXformer を紹介します。
ランドマークの視認性。
顔分析における従来の方法は、タスク固有の設計や前処理技術に依存することが多く、統一されたアーキテクチャへのアプローチが制限されていました。
これらの従来の方法とは異なり、FaceXformer は、各タスクが学習可能なトークンとして扱われるトランスフォーマー ベースのエンコーダー/デコーダー アーキテクチャを活用し、単一のフレームワーク内で複数のタスクを統合できます。
さらに、顔とタスクのトークンを共同で処理するパラメータ効率の高いデコーダ FaceX を提案します。これにより、さまざまなタスクにわたって一般化されたロバストな顔表現が学習されます。
私たちの知る限り、これはトランスフォーマーを使用してこれらすべての顔分析タスクを処理できる単一のモデルを提案した最初の研究です。
私たちは、統合された顔タスク処理のための効果的なバックボーンの包括的な分析を実施し、さまざまなタスク クエリとそれらの間の相乗効果を評価しました。
私たちは、複数のベンチマークにわたるデータセット内評価とデータセット間評価の両方で、最先端の特殊なモデルと以前のマルチタスク モデルに対する実験を実施します。
さらに、私たちのモデルは「実際に」画像を効果的に処理し、37 FPS のリアルタイム パフォーマンスを維持しながら、8 つの異なるタスクにわたる堅牢性と汎用性を実証しています。
要約(オリジナル)
In this work, we introduce FaceXformer, an end-to-end unified transformer model for a comprehensive range of facial analysis tasks such as face parsing, landmark detection, head pose estimation, attributes recognition, and estimation of age, gender, race, and landmarks visibility. Conventional methods in face analysis have often relied on task-specific designs and preprocessing techniques, which limit their approach to a unified architecture. Unlike these conventional methods, our FaceXformer leverages a transformer-based encoder-decoder architecture where each task is treated as a learnable token, enabling the integration of multiple tasks within a single framework. Moreover, we propose a parameter-efficient decoder, FaceX, which jointly processes face and task tokens, thereby learning generalized and robust face representations across different tasks. To the best of our knowledge, this is the first work to propose a single model capable of handling all these facial analysis tasks using transformers. We conducted a comprehensive analysis of effective backbones for unified face task processing and evaluated different task queries and the synergy between them. We conduct experiments against state-of-the-art specialized models and previous multi-task models in both intra-dataset and cross-dataset evaluations across multiple benchmarks. Additionally, our model effectively handles images ‘in-the-wild,’ demonstrating its robustness and generalizability across eight different tasks, all while maintaining the real-time performance of 37 FPS.
arxiv情報
著者 | Kartik Narayan,Vibashan VS,Rama Chellappa,Vishal M. Patel |
発行日 | 2024-03-19 17:58:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google