cs.SD」カテゴリーアーカイブ

Cross-speaker Emotion Transfer by Manipulating Speech Style Latents

要約 近年、感情的なテキスト読み上げはかなりの進歩を遂げています。 ただし、大量 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Cross-speaker Emotion Transfer by Manipulating Speech Style Latents はコメントを受け付けていません

Once-for-All Sequence Compression for Self-Supervised Speech Models

要約 時間軸に沿ったシーケンスの長さは、多くの場合、音声処理における計算の支配的 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Once-for-All Sequence Compression for Self-Supervised Speech Models はコメントを受け付けていません

Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech

要約 この論文では、テキスト音声合成 (TTS) モデルのための大規模な多言語音 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech はコメントを受け付けていません

Leveraging Pretrained Representations with Task-related Keywords for Alzheimer’s Disease Detection

要約 世界人口の急速な高齢化に伴い、アルツハイマー病 (AD) は特に高齢者に顕 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, q-bio.QM | Leveraging Pretrained Representations with Task-related Keywords for Alzheimer’s Disease Detection はコメントを受け付けていません

A Hierarchical Regression Chain Framework for Affective Vocal Burst Recognition

要約 非言語発声による感情シグナリングの一般的な方法として、ボーカル バースト … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | A Hierarchical Regression Chain Framework for Affective Vocal Burst Recognition はコメントを受け付けていません

I3D: Transformer architectures with input-dependent dynamic depth for speech recognition

要約 Transformer ベースのエンドツーエンドの音声認識は、大きな成功を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | I3D: Transformer architectures with input-dependent dynamic depth for speech recognition はコメントを受け付けていません

Cross-lingual Alzheimer’s Disease detection based on paralinguistic and pre-trained features

要約 ICASSP-SPGC-2023 ADReSS-M チャレンジ タスクへの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Cross-lingual Alzheimer’s Disease detection based on paralinguistic and pre-trained features はコメントを受け付けていません

QI-TTS: Questioning Intonation Control for Emotional Speech Synthesis

要約 最近の表現力豊かなテキスト読み上げ (TTS) モデルは、感情的なスピーチ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | QI-TTS: Questioning Intonation Control for Emotional Speech Synthesis はコメントを受け付けていません

Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy

要約 すべてのターゲット トークンを並行して予測するため、非自己回帰モデルは、従 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy はコメントを受け付けていません

Improving CTC-based ASR Models with Gated Interlayer Collaboration

要約 通常、外部言語モデルを使用しない CTC ベースの自動音声認識 (ASR) … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving CTC-based ASR Models with Gated Interlayer Collaboration はコメントを受け付けていません