要約
表情認識 (FER) は、表情が曖昧であるため、依然として困難な作業です。
派生したノイズの多いラベルは、現実世界のシナリオのパフォーマンスに重大な悪影響を与えます。
この問題に対処するために、Landmark-Aware Net~(LA-Net) という名前の新しい FER モデルを紹介します。これは、顔のランドマークを活用して、2 つの観点からラベル ノイズの影響を軽減します。
まず、LA-Netはランドマーク情報を用いて表現空間の不確実性を抑制し、近傍集約により各サンプルのラベル分布を構築することで、学習監視の品質を向上させます。
第二に、モデルは、考案された表情ランドマーク対比損失を使用してランドマーク情報を表情表現に組み込みます。
強化された表現特徴抽出機能により、ラベル ノイズの影響を軽減できます。
私たちの方法は、追加の推論コストを発生させることなく、トレーニングの監視を向上させるために、任意のディープ ニューラル ネットワークと統合できます。
私たちは、実際のデータセットとノイズを含む合成データセットの両方で広範な実験を実施し、LA-Net が最先端のパフォーマンスを達成することを実証しました。
要約(オリジナル)
Facial expression recognition (FER) remains a challenging task due to the ambiguity of expressions. The derived noisy labels significantly harm the performance in real-world scenarios. To address this issue, we present a new FER model named Landmark-Aware Net~(LA-Net), which leverages facial landmarks to mitigate the impact of label noise from two perspectives. Firstly, LA-Net uses landmark information to suppress the uncertainty in expression space and constructs the label distribution of each sample by neighborhood aggregation, which in turn improves the quality of training supervision. Secondly, the model incorporates landmark information into expression representations using the devised expression-landmark contrastive loss. The enhanced expression feature extractor can be less susceptible to label noise. Our method can be integrated with any deep neural network for better training supervision without introducing extra inference costs. We conduct extensive experiments on both in-the-wild datasets and synthetic noisy datasets and demonstrate that LA-Net achieves state-of-the-art performance.
arxiv情報
著者 | Zhiyu Wu,Jinshi Cui |
発行日 | 2023-07-20 17:23:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google