Expressivity and Speech Synthesis

要約

機械に会話能力を持たせることは、人工知能 (AI) 研究の長年の追求でした。
コミュニティは当初から、発話の意味を正確に伝える忠実度の高い音声を合成することだけでなく、人間が可能な感情表現と同じ範囲をカバーする抑揚で音声を着色することも目指してきました。
長年の研究の結果、単一の孤立した発話に関しては、これが達成されつつあるようです。
これにより、より複雑で長期的な行動を合成することを目的として、これらの単一の発話を組み合わせる場合に、探索すべき可能性のある手段が豊富に明らかになります。
この章では、私たちをこれまでにもたらした方法論の進歩を概説し、切望される人工表現力の次のレベルに到達するための現在進行中の取り組みを概説します。
また、急速に進歩する表現型音声合成 (ESS) テクノロジーに伴う社会的影響についても議論し、それらのリスクを軽減し、ESS の機能と倫理規範との整合性を確保する方法に焦点を当てます。

要約(オリジナル)

Imbuing machines with the ability to talk has been a longtime pursuit of artificial intelligence (AI) research. From the very beginning, the community has not only aimed to synthesise high-fidelity speech that accurately conveys the semantic meaning of an utterance, but also to colour it with inflections that cover the same range of affective expressions that humans are capable of. After many years of research, it appears that we are on the cusp of achieving this when it comes to single, isolated utterances. This unveils an abundance of potential avenues to explore when it comes to combining these single utterances with the aim of synthesising more complex, longer-term behaviours. In the present chapter, we outline the methodological advances that brought us so far and sketch out the ongoing efforts to reach that coveted next level of artificial expressivity. We also discuss the societal implications coupled with rapidly advancing expressive speech synthesis (ESS) technology and highlight ways to mitigate those risks and ensure the alignment of ESS capabilities with ethical norms.

arxiv情報

著者 Andreas Triantafyllopoulos,Björn W. Schuller
発行日 2024-04-30 08:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク