Just Because We Camp, Doesn’t Mean We Should: The Ethics of Modelling Queer Voices


最新の音声クローン モデルは、さまざまな音声をキャプチャできると主張しています。
私たちは、口語的に「ゲイの声」として知られるスタイルをキャプチャする典型的なパイプラインの能力をテストし、均質化効果に気づきました。合成音声は、次のような特徴を持つ話者の対応するグラウンドトゥルースよりも、(LGBTQ+ 参加者によって) 著しく「ゲイらしくない」ように聞こえると評価されます。
「クリーンな」クィア データの収集には安全性と公平性に影響があり、その結果として得られるテクノロジーは嘲笑から死に至るまでの危害を引き起こす可能性があります。


Modern voice cloning models claim to be able to capture a diverse range of voices. We test the ability of a typical pipeline to capture the style known colloquially as ‘gay voice’ and notice a homogenisation effect: synthesised speech is rated as sounding significantly ‘less gay’ (by LGBTQ+ participants) than its corresponding ground-truth for speakers with ‘gay voice’, but ratings actually increase for control speakers. Loss of ‘gay voice’ has implications for accessibility. We also find that for speakers with ‘gay voice’, loss of ‘gay voice’ corresponds to lower similarity ratings. However, we caution that improving the ability of such models to synthesise “gay voice” comes with a great number of risks. We use this pipeline as a starting point for a discussion on the ethics of modelling queer voices more broadly. Collecting ‘clean’ queer data has safety and fairness ramifications, and the resulting technology may cause harms from mockery to death.


著者 Atli Sigurgeirsson,Eddie L. Ungless
発行日 2024-06-11 17:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク