要約
サブグループの格差とパフォーマンスバイアスは計算研究でますます研究されていますが、カテゴリの音声感情認識(SER)の公平性は採用されていないままです。
既存の方法は、多くの場合、プライバシーの懸念のために取得するのが難しい明示的な人口統計ラベルに依存しています。
この制限に対処するために、Serのバイアスを緩和するためにK-Meansクラスタリングを使用して、事前に訓練されたモデルから擬似標識と監視されていない学習を活用する暗黙的な人口統計推論(IDI)モジュールを導入します。
我々の実験は、擬似標識IDIがサブグループの格差を減らし、Serの精度が3%未満で33%を超えて公平性メトリックを改善することを示しています。
また、監視されていないIDIは、SERパフォーマンスが4%未満の低下で、公平性メトリックの26%以上の改善をもたらします。
さらなる分析により、監視されていないIDIが人種と年齢の格差を一貫して緩和し、明示的な人口統計情報が利用できないシナリオでその可能性を示していることが明らかになりました。
要約(オリジナル)
While subgroup disparities and performance bias are increasingly studied in computational research, fairness in categorical Speech Emotion Recognition (SER) remains underexplored. Existing methods often rely on explicit demographic labels, which are difficult to obtain due to privacy concerns. To address this limitation, we introduce an Implicit Demography Inference (IDI) module that leverages pseudo-labeling from a pre-trained model and unsupervised learning using k-means clustering to mitigate bias in SER. Our experiments show that pseudo-labeling IDI reduces subgroup disparities, improving fairness metrics by over 33% with less than a 3% decrease in SER accuracy. Also, the unsupervised IDI yields more than a 26% improvement in fairness metrics with a drop of less than 4% in SER performance. Further analyses reveal that the unsupervised IDI consistently mitigates race and age disparities, demonstrating its potential in scenarios where explicit demographic information is unavailable.
arxiv情報
著者 | Yi-Cheng Lin,Huang-Cheng Chou,Hung-yi Lee |
発行日 | 2025-05-21 17:04:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google