AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder

要約

この記事では、マスクされたオートエンコーダーを利用して音声信号の分析、制御、生成を単一モデル内で統合する新しい手法である AnCoGen を紹介します。
AnCoGen は、話者のアイデンティティ、ピッチ、内容、音量、信号対雑音比、明瞭度指数などの主要な属性を推定することで音声を分析できます。
さらに、これらの属性から音声を生成し、それらを変更することで合成音声を正確に制御できます。
広範な実験により、音声分析、再合成、ピッチ推定、ピッチ修正、および音声強調にわたる AnCoGen の有効性が実証されました。

要約(オリジナル)

This article introduces AnCoGen, a novel method that leverages a masked autoencoder to unify the analysis, control, and generation of speech signals within a single model. AnCoGen can analyze speech by estimating key attributes, such as speaker identity, pitch, content, loudness, signal-to-noise ratio, and clarity index. In addition, it can generate speech from these attributes and allow precise control of the synthesized speech by modifying them. Extensive experiments demonstrated the effectiveness of AnCoGen across speech analysis-resynthesis, pitch estimation, pitch modification, and speech enhancement.

arxiv情報

著者 Samir Sadok,Simon Leglaive,Laurent Girin,Gaël Richard,Xavier Alameda-Pineda
発行日 2025-01-09 15:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD パーマリンク