eess.AS」カテゴリーアーカイブ

Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition

要約 音声感情認識 (SER) は、音声信号から人間の感情と感情状態を推測するこ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition はコメントを受け付けていません

Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings

要約 医療コンテキストにおける自動音声認識 (ASR) には、時間の節約、コスト … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings はコメントを受け付けていません

MIXPGD: Hybrid Adversarial Training for Speech Recognition Systems

要約 ディープ ニューラル ネットワークに基づく自動音声認識 (ASR) システ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | MIXPGD: Hybrid Adversarial Training for Speech Recognition Systems はコメントを受け付けていません

Robust Knowledge Distillation from RNN-T Models With Noisy Training Labels Using Full-Sum Loss

要約 この作業では、知識の蒸留 (KD) を研究し、リカレント ニューラル ネッ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, stat.ML | Robust Knowledge Distillation from RNN-T Models With Noisy Training Labels Using Full-Sum Loss はコメントを受け付けていません

Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation

要約 音声分離モデルは、多くの音声処理アプリケーションで個々の話者を分離するため … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation はコメントを受け付けていません

An End-to-End Neural Network for Image-to-Audio Transformation

要約 このペーパーでは、リソースの少ないパーソナル コンピューティング デバイス … 続きを読む

カテゴリー: cs.AI, cs.NE, eess.AS | An End-to-End Neural Network for Image-to-Audio Transformation はコメントを受け付けていません

Synthesizer Preset Interpolation using Transformer Auto-Encoders

要約 サウンド シンセサイザーは、現代の音楽制作で広く使用されていますが、習得す … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Synthesizer Preset Interpolation using Transformer Auto-Encoders はコメントを受け付けていません

Continual Learning for Monolingual End-to-End Automatic Speech Recognition

要約 自動音声認識 (ASR) モデルを新しいドメインに適応させると、元のドメイ … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS, stat.ML | Continual Learning for Monolingual End-to-End Automatic Speech Recognition はコメントを受け付けていません

Weight Averaging: A Simple Yet Effective Method to Overcome Catastrophic Forgetting in Automatic Speech Recognition

要約 トレーニング済みの自動音声認識 (ASR) モデルを新しいタスクに適応させ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Weight Averaging: A Simple Yet Effective Method to Overcome Catastrophic Forgetting in Automatic Speech Recognition はコメントを受け付けていません

WASD: A Wilder Active Speaker Detection Dataset

要約 現在のアクティブ スピーカー検出 (ASD) モデルは、音声と顔の特徴のみ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS, eess.IV | WASD: A Wilder Active Speaker Detection Dataset はコメントを受け付けていません