要約
Inspireal and Convincing Audio Generation Challenge 2024 (ICAGC 2024) は、ISCSLP 2024 Competitions and Challenges トラックの一部です。
現在の音声読み上げ (TTS) テクノロジーは高品質のオーディオを生成できますが、複雑な感情や制御された詳細なコンテンツを伝える能力には依然として限界があります。
この制約により、子供用のコンパニオン ロボットやマーケティング ボットなどの実際のアプリケーションでは、生成された音声と人間の主観的な知覚との間に不一致が生じます。
中心的な問題は、高品質のオーディオ生成と人間の究極の主観的体験との間の矛盾にあります。
したがって、この課題は、人間の調整による説得力と感動を与えるオーディオ生成に焦点を当て、合成オーディオの説得力と受容性を高めることを目的としています。
合計 19 チームがこのチャレンジに登録しており、本稿ではその競技結果と競技内容について説明します。
要約(オリジナル)
The Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC 2024) is part of the ISCSLP 2024 Competitions and Challenges track. While current text-to-speech (TTS) technology can generate high-quality audio, its ability to convey complex emotions and controlled detail content remains limited. This constraint leads to a discrepancy between the generated audio and human subjective perception in practical applications like companion robots for children and marketing bots. The core issue lies in the inconsistency between high-quality audio generation and the ultimate human subjective experience. Therefore, this challenge aims to enhance the persuasiveness and acceptability of synthesized audio, focusing on human alignment convincing and inspirational audio generation. A total of 19 teams have registered for the challenge, and the results of the competition and the competition are described in this paper.
arxiv情報
著者 | Ruibo Fu,Rui Liu,Chunyu Qiang,Yingming Gao,Yi Lu,Shuchen Shi,Tao Wang,Ya Li,Zhengqi Wen,Chen Zhang,Hui Bu,Yukun Liu,Xin Qi,Guanjun Li |
発行日 | 2024-07-31 14:23:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google