cs.SD」カテゴリーアーカイブ

Globally Normalising the Transducer for Streaming Speech Recognition

要約 トランスデューサ (RNN トランスデューサやコンフォーマ トランスデュー … 続きを読む

カテゴリー: 68T10, cs.LG, cs.SD, eess.AS | Globally Normalising the Transducer for Streaming Speech Recognition はコメントを受け付けていません

Progressive distillation diffusion for raw music generation

要約 このペーパーは、生のオーディオ ファイルを生成するタスクに新しい深層学習ア … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Progressive distillation diffusion for raw music generation はコメントを受け付けていません

Brain2Music: Reconstructing Music from Human Brain Activity

要約 人間の脳の活動から経験を再構築するプロセスは、脳が世界をどのように解釈し表 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, q-bio.NC | Brain2Music: Reconstructing Music from Human Brain Activity はコメントを受け付けていません

Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition

要約 この論文では、一般的な大規模事前学習モデル (PTM) を音声感情認識タス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition はコメントを受け付けていません

A Textless Metric for Speech-to-Speech Comparison

要約 この論文では、テキストのトランスクリプトに依存せずに音声発話を比較するため … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Textless Metric for Speech-to-Speech Comparison はコメントを受け付けていません

Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages

要約 従来の音声感情認識 (SER) タスクでは、特定の言語の分類子が、同じ言語 … 続きを読む

カテゴリー: cs.CL, cs.NE, cs.SD, eess.AS | Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages はコメントを受け付けていません

MASR: Metadata Aware Speech Representation

要約 近年、音声表現学習は主に自己教師あり学習 (SSL) タスクとして構築され … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | MASR: Metadata Aware Speech Representation はコメントを受け付けていません

Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding

要約 事前トレーニング済み音声認識 (ASR) と言語モデル (LM) を SL … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習に基づくクロスモダリティ事前トレーニング手法は、最近、さまざまな分 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization

要約 オーディオビジュアル イベント ローカライゼーション (AVEL) は、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization はコメントを受け付けていません