eess.AS」カテゴリーアーカイブ

Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion

要約 音声変換(VC)は、コンテンツを保存することにより、ソース音声をターゲット … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion はコメントを受け付けていません

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT

要約 スピーチの自己監視学習(SSL)におけるデータ駆動型ユニットの発見は、音声 … 続きを読む

カテゴリー: cs.CL, eess.AS | SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT はコメントを受け付けていません

autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks

要約 この作業では、コンピューターオーディションタスクの新しいディープラーニング … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks はコメントを受け付けていません

Taming Data and Transformers for Scalable Audio Generation

要約 アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Scalable Audio Generation はコメントを受け付けていません

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

要約 大規模な言語モデル(LLM)は、テキストベースの自然言語処理タスクに優れて … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling はコメントを受け付けていません

RNN-Transducer-based Losses for Speech Recognition on Noisy Targets

要約 騒々しい転写産物に関するトレーニング音声認識システムは、データセットが膨大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | RNN-Transducer-based Losses for Speech Recognition on Noisy Targets はコメントを受け付けていません

Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks

要約 このペーパーでは、畳み込みニューラルネットワークと画像処理技術を通じてF0 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks はコメントを受け付けていません

Leveraging Label Potential for Enhanced Multimodal Emotion Recognition

要約 マルチモーダル感情認識(MER)は、感情状態を正確に予測するために、さまざ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Leveraging Label Potential for Enhanced Multimodal Emotion Recognition はコメントを受け付けていません

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

要約 音源定位(SSL)、音源分離(SSS)、自動音声認識(ASR)を含むロボッ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | An Efficient GPU-based Implementation for Noise Robust Sound Source Localization はコメントを受け付けていません

RWKVTTS: Yet another TTS based on RWKV-7

要約 人間とAIのインタラクションは、直感的で効率的なインターフェイスで繁栄して … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | RWKVTTS: Yet another TTS based on RWKV-7 はコメントを受け付けていません