AUFormer: Vision Transformers are Parameter-Efficient Facial Action Unit Detectors

要約

フェイシャル アクション ユニット (AU) は、感情コンピューティングの分野で重要な概念であり、AU の検出は常にホットな研究トピックです。
既存の手法は、希少な AU アノテーション付きデータセットで多数の学習可能なパラメータを利用したり、実質的な追加の関連データに大きく依存したりするため、過剰適合の問題に悩まされています。
パラメータ効率的な転移学習 (PETL) は、これらの課題に対処するための有望なパラダイムを提供しますが、その既存の方法には AU 特性に対する設計が欠けています。
したがって、私たちはAU検出へのPETLパラダイムを革新的に調査し、AUFormerを導入し、新しい知識混合エキスパート(MoKE)コラボレーションメカニズムを提案します。
最小限の学習可能なパラメーターを持つ特定の AU に固有の個々の MoKE は、最初にパーソナライズされたマルチスケールと相関の知識を統合します。
次に、MoKE は専門家グループ内の他の MoKE と協力して集約された情報を取得し、それを凍結されたビジョン トランスフォーマー (ViT) に注入して、パラメーター効率の高い AU 検出を実現します。
さらに、マージン切り捨てられた難易度を考慮した加重非対称損失 (MDWA-Loss) を設計します。これにより、モデルがアクティブ化された AU にさらに焦点を当て、アクティブ化されていない AU の難易度を区別し、誤ってラベル付けされた可能性のあるサンプルを破棄することができます。
ドメイン内、クロスドメイン、データ効率、微量発現ドメインなど、さまざまな観点からの広範な実験により、追加の関連データに依存することなく、AUFormer の最先端のパフォーマンスと堅牢な一般化能力が実証されています。
AUFormer のコードは https://github.com/yuankaishen2001/AUFormer で入手できます。

要約(オリジナル)

Facial Action Units (AU) is a vital concept in the realm of affective computing, and AU detection has always been a hot research topic. Existing methods suffer from overfitting issues due to the utilization of a large number of learnable parameters on scarce AU-annotated datasets or heavy reliance on substantial additional relevant data. Parameter-Efficient Transfer Learning (PETL) provides a promising paradigm to address these challenges, whereas its existing methods lack design for AU characteristics. Therefore, we innovatively investigate PETL paradigm to AU detection, introducing AUFormer and proposing a novel Mixture-of-Knowledge Expert (MoKE) collaboration mechanism. An individual MoKE specific to a certain AU with minimal learnable parameters first integrates personalized multi-scale and correlation knowledge. Then the MoKE collaborates with other MoKEs in the expert group to obtain aggregated information and inject it into the frozen Vision Transformer (ViT) to achieve parameter-efficient AU detection. Additionally, we design a Margin-truncated Difficulty-aware Weighted Asymmetric Loss (MDWA-Loss), which can encourage the model to focus more on activated AUs, differentiate the difficulty of unactivated AUs, and discard potential mislabeled samples. Extensive experiments from various perspectives, including within-domain, cross-domain, data efficiency, and micro-expression domain, demonstrate AUFormer’s state-of-the-art performance and robust generalization abilities without relying on additional relevant data. The code for AUFormer is available at https://github.com/yuankaishen2001/AUFormer.

arxiv情報

著者 Kaishen Yuan,Zitong Yu,Xin Liu,Weicheng Xie,Huanjing Yue,Jingyu Yang
発行日 2024-07-09 15:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク