要約
話をする能力を機械に吹き込むことは、人工知能(AI)の研究の長年の追求でした。
コミュニティは、当初から、発話の意味的な意味を正確に伝える高忠実度のスピーチを統合することを目的としているだけでなく、人間ができる感情的な表現の範囲をカバーする変曲で色付けすることも目的としています。
長年の研究の後、私たちは、単一の孤立した発話に関しては、これを達成することの尖った態度にあるようです。
これにより、これらの単一の発話をより複雑で長期的な行動を合成する目的と組み合わせることに関して、探求する潜在的な潜在的な手段が豊富に発表されます。
この章では、これまでのところ私たちをもたらした方法論的進歩を概説し、その切望されている次のレベルの人工表現力に到達するための継続的な取り組みをスケッチします。
また、急速に進歩する表現音声統合(ESS)テクノロジーと相まって社会的意味を議論し、それらのリスクを軽減し、ESS能力の倫理規範との整合を確保する方法を強調します。
要約(オリジナル)
Imbuing machines with the ability to talk has been a longtime pursuit of artificial intelligence (AI) research. From the very beginning, the community has not only aimed to synthesise high-fidelity speech that accurately conveys the semantic meaning of an utterance, but also to colour it with inflections that cover the same range of affective expressions that humans are capable of. After many years of research, it appears that we are on the cusp of achieving this when it comes to single, isolated utterances. This unveils an abundance of potential avenues to explore when it comes to combining these single utterances with the aim of synthesising more complex, longer-term behaviours. In the present chapter, we outline the methodological advances that brought us so far and sketch out the ongoing efforts to reach that coveted next level of artificial expressivity. We also discuss the societal implications coupled with rapidly advancing expressive speech synthesis (ESS) technology and highlight ways to mitigate those risks and ensure the alignment of ESS capabilities with ethical norms.
arxiv情報
著者 | Andreas Triantafyllopoulos,Björn W. Schuller |
発行日 | 2025-04-10 14:01:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google