eess.AS」カテゴリーアーカイブ

Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation

要約 ニューラル トランスデューサーは、自動音声認識 (ASR) のエンド ツー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation はコメントを受け付けていません

LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders

要約 オーディオビジュアルスピーチエンハンスメントは、オーディオ自体だけでなく、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders はコメントを受け付けていません

Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings

要約 医療コンテキストにおける自動音声認識 (ASR) には、時間の節約、コスト … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings はコメントを受け付けていません

Distribution Preserving Source Separation With Time Frequency Predictive Models

要約 最先端の方法の知覚的な欠点に対処することを目的とした、分布を維持するソース … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Distribution Preserving Source Separation With Time Frequency Predictive Models はコメントを受け付けていません

Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition

要約 音声感情認識 (SER) は、音声信号から人間の感情と感情状態を推測するこ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition はコメントを受け付けていません

Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings

要約 医療コンテキストにおける自動音声認識 (ASR) には、時間の節約、コスト … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings はコメントを受け付けていません

MIXPGD: Hybrid Adversarial Training for Speech Recognition Systems

要約 ディープ ニューラル ネットワークに基づく自動音声認識 (ASR) システ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | MIXPGD: Hybrid Adversarial Training for Speech Recognition Systems はコメントを受け付けていません

Robust Knowledge Distillation from RNN-T Models With Noisy Training Labels Using Full-Sum Loss

要約 この作業では、知識の蒸留 (KD) を研究し、リカレント ニューラル ネッ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, stat.ML | Robust Knowledge Distillation from RNN-T Models With Noisy Training Labels Using Full-Sum Loss はコメントを受け付けていません

Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation

要約 音声分離モデルは、多くの音声処理アプリケーションで個々の話者を分離するため … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation はコメントを受け付けていません

An End-to-End Neural Network for Image-to-Audio Transformation

要約 このペーパーでは、リソースの少ないパーソナル コンピューティング デバイス … 続きを読む

カテゴリー: cs.AI, cs.NE, eess.AS | An End-to-End Neural Network for Image-to-Audio Transformation はコメントを受け付けていません