ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024


Inspireal and Convincing Audio Generation Challenge 2024 (ICAGC 2024) は、ISCSLP 2024 Competitions and Challenges トラックの一部です。
現在の音声読み上げ (TTS) テクノロジーは高品質のオーディオを生成できますが、複雑な感情や制御された詳細なコンテンツを伝える能力には依然として限界があります。
この制約により、子供用のコンパニオン ロボットやマーケティング ボットなどの実際のアプリケーションでは、生成された音声と人間の主観的な知覚との間に不一致が生じます。
合計 19 チームがこのチャレンジに登録しており、本稿ではその競技結果と競技内容について説明します。


The Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC 2024) is part of the ISCSLP 2024 Competitions and Challenges track. While current text-to-speech (TTS) technology can generate high-quality audio, its ability to convey complex emotions and controlled detail content remains limited. This constraint leads to a discrepancy between the generated audio and human subjective perception in practical applications like companion robots for children and marketing bots. The core issue lies in the inconsistency between high-quality audio generation and the ultimate human subjective experience. Therefore, this challenge aims to enhance the persuasiveness and acceptability of synthesized audio, focusing on human alignment convincing and inspirational audio generation. A total of 19 teams have registered for the challenge, and the results of the competition and the competition are described in this paper.


著者 Ruibo Fu,Rui Liu,Chunyu Qiang,Yingming Gao,Yi Lu,Shuchen Shi,Tao Wang,Ya Li,Zhengqi Wen,Chen Zhang,Hui Bu,Yukun Liu,Xin Qi,Guanjun Li
発行日 2024-07-31 14:23:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク