Audio Diffusion Model for Speech Synthesis: A Survey on Text To Speech and Speech Enhancement in Generative AI

要約

ジェネレーティブ AI はさまざまな分野で印象的なパフォーマンスを発揮しており、その中でも音声合成は興味深い方向性です。
最も一般的な生成モデルとしての拡散モデルを使用して、多数の研究で、テキストから音声への変換と音声強調という 2 つのアクティブなタスクが試みられています。
この作業は、オーディオ拡散モデルに関する調査を行います。これは、拡散ベースの音声合成の最近の進歩を欠いているか、複数の分野で拡散モデルを適用する全体像を強調する既存の調査を補完するものです。
具体的には、この作品ではまず、オーディオと拡散モデルの背景を簡単に紹介します。
テキスト読み上げタスクに関しては、拡散モデルが採用される段階に基づいて、方法を 3 つのカテゴリ (音響モデル、ボコーダー、およびエンドツーエンド フレームワーク) に分類します。
さらに、特定の信号を削除するか、入力音声に追加するかによって、さまざまな音声強調タスクを分類します。
この調査では、実験結果の比較と議論もカバーされています。

要約(オリジナル)

Generative AI has demonstrated impressive performance in various fields, among which speech synthesis is an interesting direction. With the diffusion model as the most popular generative model, numerous works have attempted two active tasks: text to speech and speech enhancement. This work conducts a survey on audio diffusion model, which is complementary to existing surveys that either lack the recent progress of diffusion-based speech synthesis or highlight an overall picture of applying diffusion model in multiple fields. Specifically, this work first briefly introduces the background of audio and diffusion model. As for the text-to-speech task, we divide the methods into three categories based on the stage where diffusion model is adopted: acoustic model, vocoder and end-to-end framework. Moreover, we categorize various speech enhancement tasks by either certain signals are removed or added into the input speech. Comparisons of experimental results and discussions are also covered in this survey.

arxiv情報

著者 Chenshuang Zhang,Chaoning Zhang,Sheng Zheng,Mengchun Zhang,Maryam Qamar,Sung-Ho Bae,In So Kweon
発行日 2023-03-23 15:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク