要約
ニューラル・スピーチ・コーデックは、音声変換、テキスト音声合成などのような生成的音声モデリング領域で最近広く注目されている。しかし、高い圧縮率下での音声コーデックの高忠実度の音声再構成を保証することは、未解決の困難な課題である。本論文では、プロンプトエンコーデック(PromptCodec)を提案する。プロンプトエンコーデックは、離散化表現学習に基づく特徴認識プロンプトエンコーダを用いた、新しいエンドツーエンドのニューラル音声コーデックモデルである。PromptCodecは、プロンプトエンコーダから特徴表現を追加的に取り込むことで、処理を必要とする音声情報を分散し、その能力を向上させることができる。さらに、異なるエンコーダの特徴を統合するために、シンプルで効果的な適応的特徴重み付け融合アプローチを導入する。一方、PromptCodecのエンコーダーを最適化するために、コサイン距離に基づく新しい分離表現学習戦略を提案し、その効率を確保することで、PromptCodecの性能をさらに向上させる。LibriTTSを用いた実験により、我々の提案するPromptCodecは、低ビットレートで顕著な性能を達成しながらも、全ての異なるビットレート条件下で、最新のニューラル音声コーデックモデルを一貫して凌駕することが実証された。
要約(オリジナル)
Neural speech codec has recently gained widespread attention in generative speech modeling domains, like voice conversion, text-to-speech synthesis, etc. However, ensuring high-fidelity audio reconstruction of speech codecs under high compression rates remains an open and challenging issue. In this paper, we propose PromptCodec, a novel end-to-end neural speech codec model using disentangled representation learning based feature-aware prompt encoders. By incorporating additional feature representations from prompt encoders, PromptCodec can distribute the speech information requiring processing and enhance its capabilities. Moreover, a simple yet effective adaptive feature weighted fusion approach is introduced to integrate features of different encoders. Meanwhile, we propose a novel disentangled representation learning strategy based on cosine distance to optimize PromptCodec’s encoders to ensure their efficiency, thereby further improving the performance of PromptCodec. Experiments on LibriTTS demonstrate that our proposed PromptCodec consistently outperforms state-of-the-art neural speech codec models under all different bitrate conditions while achieving impressive performance with low bitrates.
arxiv情報
| 著者 | Yu Pan,Lei Ma,Jianjun Zhao |
| 発行日 | 2024-04-03 13:00:08+00:00 |
| arxivサイト | arxiv_id(pdf) |