An End-to-End Multi-Module Audio Deepfake Generation System for ADD Challenge 2023

要約

合成音声生成のタスクは、指定されたテキストから言語コンテンツを生成し、人間の偽の声をシミュレートすることです。合成音声生成の効果を決定する主な要素には、主に生成速度、単語分割の精度、合成音声の自然さなどが含まれます。
この論文では、スピーカー エンコーダー、Tacotron2 ベースのシンセサイザー、WaveRNN ベースのボコーダーを含む、エンドツーエンドのマルチモジュール合成音声生成モデルを構築します。
さらに、さまざまなデータセットとさまざまなモデル構造に対して多くの比較実験を実行します。
最後に、ADD 2023 チャレンジ トラック 1.1 で 44.97% の加重欺瞞成功率 (WDSR) で 1 位を獲得しました。

要約(オリジナル)

The task of synthetic speech generation is to generate language content from a given text, then simulating fake human voice.The key factors that determine the effect of synthetic speech generation mainly include speed of generation, accuracy of word segmentation, naturalness of synthesized speech, etc. This paper builds an end-to-end multi-module synthetic speech generation model, including speaker encoder, synthesizer based on Tacotron2, and vocoder based on WaveRNN. In addition, we perform a lot of comparative experiments on different datasets and various model structures. Finally, we won the first place in the ADD 2023 challenge Track 1.1 with the weighted deception success rate (WDSR) of 44.97%.

arxiv情報

著者 Sheng Zhao,Qilong Yuan,Yibo Duan,Zhuoyue Chen
発行日 2023-07-03 03:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク