要約
音声クローニングは、今日のデジタルの世界で急速に進歩しており、多くの研究者や企業がさまざまなアプリケーションのこれらのアルゴリズムを改善するために取り組んでいます。
この記事の目的は、音声クローンのための標準化された用語を確立し、そのさまざまなバリエーションを調査することを目的としています。
これは、スピーカーの適応を基本的な概念としてカバーし、そのコンテキスト内の少数のショット、ゼロショット、多言語TTSなどのトピックをより深く掘り下げます。
最後に、音声クローン研究および関連データセットで一般的に使用される評価メトリックを調査します。
この調査では、利用可能な音声クローニングアルゴリズムをまとめて、その生成と検出に向けた研究を促進し、その誤用を制限します。
要約(オリジナル)
Voice Cloning has rapidly advanced in today’s digital world, with many researchers and corporations working to improve these algorithms for various applications. This article aims to establish a standardized terminology for voice cloning and explore its different variations. It will cover speaker adaptation as the fundamental concept and then delve deeper into topics such as few-shot, zero-shot, and multilingual TTS within that context. Finally, we will explore the evaluation metrics commonly used in voice cloning research and related datasets. This survey compiles the available voice cloning algorithms to encourage research toward its generation and detection to limit its misuse.
arxiv情報
著者 | Hussam Azzuni,Abdulmotaleb El Saddik |
発行日 | 2025-05-01 15:10:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google