Audio Diffusion Model for Speech Synthesis: A Survey on Text To Speech and Speech Enhancement in Generative AI


ジェネレーティブ AI はさまざまな分野で印象的なパフォーマンスを発揮しており、その中でも音声合成は興味深い方向性です。
最も一般的な生成モデルとしての拡散モデルを使用して、多数の研究で、テキストから音声への変換と音声強調という 2 つのアクティブなタスクが試みられています。
テキスト読み上げタスクに関しては、拡散モデルが採用される段階に基づいて、方法を 3 つのカテゴリ (音響モデル、ボコーダー、およびエンドツーエンド フレームワーク) に分類します。


Generative AI has demonstrated impressive performance in various fields, among which speech synthesis is an interesting direction. With the diffusion model as the most popular generative model, numerous works have attempted two active tasks: text to speech and speech enhancement. This work conducts a survey on audio diffusion model, which is complementary to existing surveys that either lack the recent progress of diffusion-based speech synthesis or highlight an overall picture of applying diffusion model in multiple fields. Specifically, this work first briefly introduces the background of audio and diffusion model. As for the text-to-speech task, we divide the methods into three categories based on the stage where diffusion model is adopted: acoustic model, vocoder and end-to-end framework. Moreover, we categorize various speech enhancement tasks by either certain signals are removed or added into the input speech. Comparisons of experimental results and discussions are also covered in this survey.


著者 Chenshuang Zhang,Chaoning Zhang,Sheng Zheng,Mengchun Zhang,Maryam Qamar,Sung-Ho Bae,In So Kweon
発行日 2023-03-23 15:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク