要約
人工知能(AI)の音声生成と音声クローニング技術の最近の進歩は、自然主義的な音声と正確な音声複製を生み出していますが、多様なアクセントと言語特性にわたる社会技術システムへの影響は完全には理解されていません。
この研究では、調査とインタビューを使用した混合方法アプローチを通じて、2つの合成AI音声サービス(SpeechifyとElevenLabs)を評価して、技術的なパフォーマンスを評価し、ユーザーの生きた経験がこれらの音声技術のアクセントのバリエーションの認識にどのように影響するかを明らかにします。
私たちの調査結果は、5つの地域の英語のアクセントにわたる技術的なパフォーマンスの格差を明らかにし、現在の音声生成技術が誤って言語的特権とアクセントベースの差別を強化し、デジタル排除の新しい形態を生み出す可能性があることを示しています。
全体として、私たちの研究は、開発者、政策立案者、および組織に実質的で社会的に責任あるAIスピーチテクノロジーを確保するために、実用的な洞察を提供することにより、包括的な設計と規制の必要性を強調しています。
要約(オリジナル)
Recent advances in artificial intelligence (AI) speech generation and voice cloning technologies have produced naturalistic speech and accurate voice replication, yet their influence on sociotechnical systems across diverse accents and linguistic traits is not fully understood. This study evaluates two synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods approach using surveys and interviews to assess technical performance and uncover how users’ lived experiences influence their perceptions of accent variations in these speech technologies. Our findings reveal technical performance disparities across five regional, English-language accents and demonstrate how current speech generation technologies may inadvertently reinforce linguistic privilege and accent-based discrimination, potentially creating new forms of digital exclusion. Overall, our study highlights the need for inclusive design and regulation by providing actionable insights for developers, policymakers, and organizations to ensure equitable and socially responsible AI speech technologies.
arxiv情報
著者 | Shira Michel,Sufi Kaur,Sarah Elizabeth Gillespie,Jeffrey Gleason,Christo Wilson,Avijit Ghosh |
発行日 | 2025-06-13 15:08:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google