
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

要約 Text-to-Speech(TTS)を大規模で複数の話者が存在する自然環 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers はコメントを受け付けていません

Unsupervised Melody-to-Lyric Generation

要約 メロディーから歌詞への自動生成は、指定されたメロディーに合わせて歌詞を生成 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Unsupervised Melody-to-Lyric Generation はコメントを受け付けていません

Make-A-Voice: Unified Voice Synthesis With Discrete Representation

要約 音声合成のさまざまなアプリケーションは、出力として「音声」を生成するという … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Make-A-Voice: Unified Voice Synthesis With Discrete Representation はコメントを受け付けていません

OverFlow: Putting flows on top of neural transducers for better TTS

要約 ニューラル HMM は、テキスト読み上げにおけるシーケンス間モデリング用に … 続きを読む

カテゴリー: 68T07, cs.HC, cs.LG, cs.SD, eess.AS, G.3 | OverFlow: Putting flows on top of neural transducers for better TTS はコメントを受け付けていません

Augmentation Invariant Discrete Representation for Generative Spoken Language Modeling

要約 生成音声言語モデリングの研究は、テキストによる監視にアクセスせずに生のオー … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Augmentation Invariant Discrete Representation for Generative Spoken Language Modeling はコメントを受け付けていません

Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition

要約 Explainable AI (XAI) 技術は、画像分類や自然言語処理な … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition はコメントを受け付けていません

Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target

要約 音声言語理解 (SLU) は、話された発話から意味論的な情報を抽出すること … 続きを読む

カテゴリー: cs.CL, eess.AS | Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target はコメントを受け付けていません

InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition

要約 ローカル機能とグローバル機能はどちらも自動音声認識 (ASR) に不可欠で … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition はコメントを受け付けていません

ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for Low-Resource TTS Adaptation

要約 広く話されていない言語や、トレーニング データで十分に表現されていないアク … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for Low-Resource TTS Adaptation はコメントを受け付けていません

Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model

要約 最近の大規模言語モデル (LLM) の巨大なスケールにより、命令ベースおよ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model はコメントを受け付けていません