Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition

要約

この論文では、連続音声女性性パーセント (VFP) を使用して音声を記述することを可能にするソフトウェアを紹介します。
このシステムは、声の移行期にあるトランスジェンダーの話者と、このプロセスで彼らをサポートするボイスセラピストを対象としています。
フランスのシスジェンダーおよびトランスジェンダー話者 41 人のコーパスが記録されました。
知覚評価により、57 人の参加者が各音声の VFP を推定することができました。
バイナリ性別分類モデルは、外部の性別バランスの取れたデータでトレーニングされ、重複するウィンドウで使用されて、平均的な性別予測推定値を取得しました。この推定値は、VFP を予測するように校正され、$F_0$ または声帯長ベースのモデルよりも高い精度が得られました。
トレーニング データの話し方と DNN アーキテクチャが VFP 推定に影響を与えることが示されました。
モデルの精度は話者の年齢に影響されました。
これは、文化的概念の適切な統計的表現を構築するために、スタイル、年齢、性別を二値的かどうかの概念が重要であることを強調しています。

要約(オリジナル)

This paper presents a software allowing to describe voices using a continuous Voice Femininity Percentage (VFP). This system is intended for transgender speakers during their voice transition and for voice therapists supporting them in this process. A corpus of 41 French cis- and transgender speakers was recorded. A perceptual evaluation allowed 57 participants to estimate the VFP for each voice. Binary gender classification models were trained on external gender-balanced data and used on overlapping windows to obtain average gender prediction estimates, which were calibrated to predict VFP and obtained higher accuracy than $F_0$ or vocal track length-based models. Training data speaking style and DNN architecture were shown to impact VFP estimation. Accuracy of the models was affected by speakers’ age. This highlights the importance of style, age, and the conception of gender as binary or not, to build adequate statistical representations of cultural concepts.

arxiv情報

著者 David Doukhan,Simon Devauchelle,Lucile Girard-Monneron,Mía Chávez Ruz,V. Chaddouk,Isabelle Wagner,Albert Rilliard
発行日 2024-04-23 16:15:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.SD, eess.AS パーマリンク