cs.SD」カテゴリーアーカイブ

AutoStyle-TTS: Retrieval-Augmented Generation based Automatic Style Matching Text-to-Speech Synthesis

要約 音声合成技術の進歩により、ユーザーは合成された音声の自然性と表現力に対する … 続きを読む

カテゴリー: cs.AI, cs.SD | コメントする

Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation

要約 テキストツースピーチ(TTS)モデルは、音素を波形に変換することにより、複 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

On The Landscape of Spoken Language Models: A Comprehensive Survey

要約 音声言語処理の分野は、普遍的な音声処理システムとして機能するカスタム構築の … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

Towards Unified Music Emotion Recognition across Dimensional and Categorical Models

要約 音楽感情認識(MER)における最も重要な課題の1つは、感情ラベルがカテゴリ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion

要約 音声変換(VC)は、コンテンツを保存することにより、ソース音声をターゲット … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks

要約 この作業では、コンピューターオーディションタスクの新しいディープラーニング … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする

SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow

要約 最近、フローマッチングベースの音声合成により、推論ステップの数を減らしなが … 続きを読む

カテゴリー: cs.AI, cs.SD | コメントする

Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis

要約 テキストツースピック(TTS)テクノロジーは、広く話されている言語で印象的 … 続きを読む

カテゴリー: cs.AI, cs.SD | コメントする

Taming Data and Transformers for Scalable Audio Generation

要約 アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | コメントする

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

要約 大規模な言語モデル(LLM)は、テキストベースの自然言語処理タスクに優れて … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする