Just Because We Camp, Doesn’t Mean We Should: The Ethics of Modelling Queer Voices

要約

最新の音声クローン モデルは、さまざまな音声をキャプチャできると主張しています。
私たちは、口語的に「ゲイの声」として知られるスタイルをキャプチャする典型的なパイプラインの能力をテストし、均質化効果に気づきました。合成音声は、次のような特徴を持つ話者の対応するグラウンドトゥルースよりも、(LGBTQ+ 参加者によって) 著しく「ゲイらしくない」ように聞こえると評価されます。
「ゲイの声」ですが、実際にはコントロールスピーカーの評価が上がります。
「ゲイの声」の喪失はアクセシビリティに影響を及ぼします。
また、「ゲイの声」を持つ話者の場合、「ゲイの声」の喪失は類似性評価の低下に相当することもわかりました。
ただし、このようなモデルの「ゲイの声」を合成する能力を向上させることには、多くのリスクが伴うことを警告します。
私たちはこのパイプラインを、クィアの声をより広範にモデル化する倫理に関する議論の出発点として使用します。
「クリーンな」クィア データの収集には安全性と公平性に影響があり、その結果として得られるテクノロジーは嘲笑から死に至るまでの危害を引き起こす可能性があります。

要約(オリジナル)

Modern voice cloning models claim to be able to capture a diverse range of voices. We test the ability of a typical pipeline to capture the style known colloquially as ‘gay voice’ and notice a homogenisation effect: synthesised speech is rated as sounding significantly ‘less gay’ (by LGBTQ+ participants) than its corresponding ground-truth for speakers with ‘gay voice’, but ratings actually increase for control speakers. Loss of ‘gay voice’ has implications for accessibility. We also find that for speakers with ‘gay voice’, loss of ‘gay voice’ corresponds to lower similarity ratings. However, we caution that improving the ability of such models to synthesise “gay voice” comes with a great number of risks. We use this pipeline as a starting point for a discussion on the ethics of modelling queer voices more broadly. Collecting ‘clean’ queer data has safety and fairness ramifications, and the resulting technology may cause harms from mockery to death.

arxiv情報

著者 Atli Sigurgeirsson,Eddie L. Ungless
発行日 2024-06-11 17:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク