
Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech

要約 この論文では、テキスト音声合成 (TTS) モデルのための大規模な多言語音 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech はコメントを受け付けていません

Cascading and Direct Approaches to Unsupervised Constituency Parsing on Spoken Sentences

要約 教師なし構文解析に関する過去の作業は、記述された形式に限定されています。 … 続きを読む

カテゴリー: cs.CL, eess.AS | Cascading and Direct Approaches to Unsupervised Constituency Parsing on Spoken Sentences はコメントを受け付けていません

Leveraging Pretrained Representations with Task-related Keywords for Alzheimer’s Disease Detection

要約 世界人口の急速な高齢化に伴い、アルツハイマー病 (AD) は特に高齢者に顕 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, q-bio.QM | Leveraging Pretrained Representations with Task-related Keywords for Alzheimer’s Disease Detection はコメントを受け付けていません

A Hierarchical Regression Chain Framework for Affective Vocal Burst Recognition

要約 非言語発声による感情シグナリングの一般的な方法として、ボーカル バースト … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | A Hierarchical Regression Chain Framework for Affective Vocal Burst Recognition はコメントを受け付けていません

I3D: Transformer architectures with input-dependent dynamic depth for speech recognition

要約 Transformer ベースのエンドツーエンドの音声認識は、大きな成功を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | I3D: Transformer architectures with input-dependent dynamic depth for speech recognition はコメントを受け付けていません

Cross-lingual Alzheimer’s Disease detection based on paralinguistic and pre-trained features

要約 ICASSP-SPGC-2023 ADReSS-M チャレンジ タスクへの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Cross-lingual Alzheimer’s Disease detection based on paralinguistic and pre-trained features はコメントを受け付けていません

QI-TTS: Questioning Intonation Control for Emotional Speech Synthesis

要約 最近の表現力豊かなテキスト読み上げ (TTS) モデルは、感情的なスピーチ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | QI-TTS: Questioning Intonation Control for Emotional Speech Synthesis はコメントを受け付けていません

Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy

要約 すべてのターゲット トークンを並行して予測するため、非自己回帰モデルは、従 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy はコメントを受け付けていません

Improving CTC-based ASR Models with Gated Interlayer Collaboration

要約 通常、外部言語モデルを使用しない CTC ベースの自動音声認識 (ASR) … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving CTC-based ASR Models with Gated Interlayer Collaboration はコメントを受け付けていません

Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme Conversion

要約 ほとんどの中国語の書記素から音素 (G2P) システムは、最初に入力シーケ … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme Conversion はコメントを受け付けていません