LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition

要約

半教師あり学習は、表情認識 (FER) タスクにおけるラベル不足の課題に取り組むための有望なアプローチとして浮上しています。
しかし、現在の最先端の方法は主にコインの片面、つまり高品質の擬似ラベルの生成に焦点を当てており、もう一方の面、つまり表現関連の表現の強化は無視されています。
この論文では、半教師あり FER の表現関連の表現と擬似ラベルを調整するための階層的デカップリングと融合 (LEAF) と呼ばれる統一フレームワークを提案することで、コインの裏表を明らかにします。
LEAF では、セマンティック、インスタンス、カテゴリの 3 つのレベルで動作する階層式対応の集計戦略が導入されています。
(1) LEAF は、セマンティック レベルとインスタンス レベルで、表現を式に依存しないコンポーネントと式に関連したコンポーネントに分離し、学習可能なゲート重みを使用してそれらを適応的に融合します。
(2) カテゴリ レベルでは、LEAF は、予測を肯定的な部分と否定的な部分に分離することによって曖昧な疑似ラベルを割り当て、同じ画像の 2 つの拡張ビュー間の一致を保証するために一貫性損失を採用します。
ベンチマーク データセットに関する広範な実験により、コインの両面を明らかにして調和させることにより、LEAF が最先端の半教師あり FER 手法を上回り、ラベル付きデータとラベルなしデータの両方を効果的に活用できることが実証されました。
さらに、提案された式を意識した集計戦略は、既存の半教師ありフレームワークにシームレスに統合でき、大幅なパフォーマンスの向上につながります。

要約(オリジナル)

Semi-supervised learning has emerged as a promising approach to tackle the challenge of label scarcity in facial expression recognition (FER) task. However, current state-of-the-art methods primarily focus on one side of the coin, i.e., generating high-quality pseudo-labels, while overlooking the other side: enhancing expression-relevant representations. In this paper, we unveil both sides of the coin by proposing a unified framework termed hierarchicaL dEcoupling And Fusing (LEAF) to coordinate expression-relevant representations and pseudo-labels for semi-supervised FER. LEAF introduces a hierarchical expression-aware aggregation strategy that operates at three levels: semantic, instance, and category. (1) At the semantic and instance levels, LEAF decouples representations into expression-agnostic and expression-relevant components, and adaptively fuses them using learnable gating weights. (2) At the category level, LEAF assigns ambiguous pseudo-labels by decoupling predictions into positive and negative parts, and employs a consistency loss to ensure agreement between two augmented views of the same image. Extensive experiments on benchmark datasets demonstrate that by unveiling and harmonizing both sides of the coin, LEAF outperforms state-of-the-art semi-supervised FER methods, effectively leveraging both labeled and unlabeled data. Moreover, the proposed expression-aware aggregation strategy can be seamlessly integrated into existing semi-supervised frameworks, leading to significant performance gains.

arxiv情報

著者 Fan Zhang,Zhi-Qi Cheng,Jian Zhao,Xiaojiang Peng,Xuelong Li
発行日 2024-04-23 13:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク