cs.SD」カテゴリーアーカイブ

Towards Unified Music Emotion Recognition across Dimensional and Categorical Models

要約 音楽感情認識(MER)における最も重要な課題の1つは、感情ラベルがカテゴリ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Towards Unified Music Emotion Recognition across Dimensional and Categorical Models はコメントを受け付けていません

Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion

要約 音声変換(VC)は、コンテンツを保存することにより、ソース音声をターゲット … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion はコメントを受け付けていません

autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks

要約 この作業では、コンピューターオーディションタスクの新しいディープラーニング … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks はコメントを受け付けていません

SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow

要約 最近、フローマッチングベースの音声合成により、推論ステップの数を減らしなが … 続きを読む

カテゴリー: cs.AI, cs.SD | SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow はコメントを受け付けていません

Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis

要約 テキストツースピック(TTS)テクノロジーは、広く話されている言語で印象的 … 続きを読む

カテゴリー: cs.AI, cs.SD | Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis はコメントを受け付けていません

Taming Data and Transformers for Scalable Audio Generation

要約 アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Scalable Audio Generation はコメントを受け付けていません

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

要約 大規模な言語モデル(LLM)は、テキストベースの自然言語処理タスクに優れて … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling はコメントを受け付けていません

RNN-Transducer-based Losses for Speech Recognition on Noisy Targets

要約 騒々しい転写産物に関するトレーニング音声認識システムは、データセットが膨大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | RNN-Transducer-based Losses for Speech Recognition on Noisy Targets はコメントを受け付けていません

Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks

要約 このペーパーでは、畳み込みニューラルネットワークと画像処理技術を通じてF0 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks はコメントを受け付けていません

Leveraging Label Potential for Enhanced Multimodal Emotion Recognition

要約 マルチモーダル感情認識(MER)は、感情状態を正確に予測するために、さまざ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Leveraging Label Potential for Enhanced Multimodal Emotion Recognition はコメントを受け付けていません