要約
表情認識(FER)は、表情の主観的な性質とノイズの多いサンプルによって引き起こされるあいまいさのラベルのため、依然として挑戦的な作業です。
さらに、現実世界のデータセットで一般的なクラスの不均衡は、さらに複雑になります。
多くの研究では印象的な改善が示されていますが、通常、これらの問題の1つのみに対処し、最適ではない結果につながります。
両方の課題に同時に取り組むために、実際の条件下で堅牢であるナビゲーションラベルAmviguity(NLA)と呼ばれる新しいフレームワークを提案します。
NLAの背後にある動機は、各反復で曖昧なサンプルを動的に推定および強調することで、モデルのバイアスを多数派クラスに削減することにより、ノイズとクラスの不均衡を軽減するのに役立つことです。
これを達成するために、NLAは2つの主要なコンポーネントで構成されています:ノイズ認識適応重み(NAW)と一貫性の正則化。
具体的には、NAWは、グラウンドトゥルースの中間予測スコアと最も近いネガティブの相関に基づいて、曖昧なサンプルに対してより大きな重要性を騒々しいサンプルに対してより大きな重要性を割り当て、ノイズの多いサンプルに対してより低いサンプルに割り当てます。
さらに、一貫した潜在分布を確保するために、正規化用語を組み込みます。
その結果、NLAにより、モデルは、主に少数派クラスに属するより挑戦的な曖昧なサンプルに徐々に焦点を当てることができます。
広範な実験は、NLAが全体的な精度と平均精度の両方で既存の方法よりも優れていることを示しており、ノイズとクラスの不均衡に対する堅牢性を確認しています。
私たちの知る限り、これは両方の問題に同時に対処する最初のフレームワークです。
要約(オリジナル)
Facial expression recognition (FER) remains a challenging task due to label ambiguity caused by the subjective nature of facial expressions and noisy samples. Additionally, class imbalance, which is common in real-world datasets, further complicates FER. Although many studies have shown impressive improvements, they typically address only one of these issues, leading to suboptimal results. To tackle both challenges simultaneously, we propose a novel framework called Navigating Label Ambiguity (NLA), which is robust under real-world conditions. The motivation behind NLA is that dynamically estimating and emphasizing ambiguous samples at each iteration helps mitigate noise and class imbalance by reducing the model’s bias toward majority classes. To achieve this, NLA consists of two main components: Noise-aware Adaptive Weighting (NAW) and consistency regularization. Specifically, NAW adaptively assigns higher importance to ambiguous samples and lower importance to noisy ones, based on the correlation between the intermediate prediction scores for the ground truth and the nearest negative. Moreover, we incorporate a regularization term to ensure consistent latent distributions. Consequently, NLA enables the model to progressively focus on more challenging ambiguous samples, which primarily belong to the minority class, in the later stages of training. Extensive experiments demonstrate that NLA outperforms existing methods in both overall and mean accuracy, confirming its robustness against noise and class imbalance. To the best of our knowledge, this is the first framework to address both problems simultaneously.
arxiv情報
著者 | JunGyu Lee,Yeji Choi,Haksub Kim,Ig-Jae Kim,Gi Pyo Nam |
発行日 | 2025-02-14 08:24:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google