Balancing the Scales: Enhancing Fairness in Facial Expression Recognition with Latent Alignment

要約

顔の表情を使って感情的な意図を自動的に認識することは、コンピュータ ビジョンの分野で徹底的に研究されてきたテーマです。
表情認識 (FER) は教師あり学習タスクであり、さまざまな社会文化的人口統計的属性を例示するかなり大量のデータに大きく依存しています。
過去 10 年間にわたって、提案されてきたいくつかの現実世界の野生 FER データセットは、クラウドソーシングまたは Web スクレイピングを通じて収集されました。
ただし、これらの実際に使用されているデータセットのほとんどは、感情的な意図をラベル付けするために手動のアノテーション手法を採用しており、これにより本質的に個人の人口統計上のバイアスが伝播します。
さらに、これらのデータセットにはさまざまな社会文化的な人口統計グループが公平に表現されていないため、階級の不均衡が生じます。
バイアス分析とその緩和は、複数のドメインおよび問題設定にわたって調査されてきましたが、FER ドメインでは、これは比較的あまり調査されていない領域です。
この研究では、潜在空間に基づく表現学習を活用して表情認識システムのバイアスを軽減し、それによって深層学習モデルの公平性と全体的な精度を向上させます。

要約(オリジナル)

Automatically recognizing emotional intent using facial expression has been a thoroughly investigated topic in the realm of computer vision. Facial Expression Recognition (FER), being a supervised learning task, relies heavily on substantially large data exemplifying various socio-cultural demographic attributes. Over the past decade, several real-world in-the-wild FER datasets that have been proposed were collected through crowd-sourcing or web-scraping. However, most of these practically used datasets employ a manual annotation methodology for labeling emotional intent, which inherently propagates individual demographic biases. Moreover, these datasets also lack an equitable representation of various socio-cultural demographic groups, thereby inducing a class imbalance. Bias analysis and its mitigation have been investigated across multiple domains and problem settings, however, in the FER domain, this is a relatively lesser explored area. This work leverages representation learning based on latent spaces to mitigate bias in facial expression recognition systems, thereby enhancing a deep learning model’s fairness and overall accuracy.

arxiv情報

著者 Syed Sameen Ahmad Rizvi,Aryan Seth,Pratik Narang
発行日 2024-10-25 10:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク