CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition

要約

音声感情認識(SER)システムのバイアスは、多くの場合、スピーカーの特性と感情的なラベルとの間の偽の相関に起因し、人口統計グループ全体で不公平な予測につながります。
多くの既存の債務手法には、モデル固有の変更または人口統計的注釈が必要であり、実用的な使用が制限されています。
モデルアーキテクチャを変更したり、人口統計情報に依存したりせずにバイアスを軽減する自信指向の音声増強アプローチであるCo-Vadaを提示します。
Co-Vadaは、トレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを識別し、音声変換を適用して無関係な属性を変更し、サンプルを生成します。
これらの増強されたサンプルは、データの支配的なパターンとは異なるスピーカーのバリエーションを導入し、モデルを導き、感情に関連する機能にもっと焦点を合わせます。
私たちのフレームワークは、さまざまなSERモデルと音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっています。

要約(オリジナル)

Bias in speech emotion recognition (SER) systems often stems from spurious correlations between speaker characteristics and emotional labels, leading to unfair predictions across demographic groups. Many existing debiasing methods require model-specific changes or demographic annotations, limiting their practical use. We present CO-VADA, a Confidence-Oriented Voice Augmentation Debiasing Approach that mitigates bias without modifying model architecture or relying on demographic information. CO-VADA identifies training samples that reflect bias patterns present in the training data and then applies voice conversion to alter irrelevant attributes and generate samples. These augmented samples introduce speaker variations that differ from dominant patterns in the data, guiding the model to focus more on emotion-relevant features. Our framework is compatible with various SER models and voice conversion tools, making it a scalable and practical solution for improving fairness in SER systems.

arxiv情報

著者 Yun-Shao Tsai,Yi-Cheng Lin,Huang-Cheng Chou,Hung-yi Lee
発行日 2025-06-06 13:25:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク