cs.SD」カテゴリーアーカイブ

Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla

要約 データ駆動型の自然言語処理システムのパフォーマンスは、コーパスの品質に左右 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla はコメントを受け付けていません

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

要約 障害のある高齢者の発話の自動認識は、そのようなデータを大量に収集することが … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition はコメントを受け付けていません

Low latency transformers for speech processing

要約 トランスフォーマーは、最新のニューラル ネットワークで広く使用されているビ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Low latency transformers for speech processing はコメントを受け付けていません

Cross-Modal Mutual Learning for Cued Speech Recognition

要約 Automatic Cued Speech Recognition (AC … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Cross-Modal Mutual Learning for Cued Speech Recognition はコメントを受け付けていません

Dynamic Kernels and Channel Attention for Low Resource Speaker Verification

要約 最先端の話者検証フレームワークは通常、検証パフォーマンスを向上させるために … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Dynamic Kernels and Channel Attention for Low Resource Speaker Verification はコメントを受け付けていません

Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech

要約 一時停止の挿入は、フレーズ区切り予測およびフレージングとも呼ばれ、TTS … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech はコメントを受け付けていません

Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition

要約 データの欠如とマルチモーダル融合の難しさは、マルチモーダル感情認識 (ME … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition はコメントを受け付けていません

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

要約 この作業は、Generative Spoken Language Mode … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling はコメントを受け付けていません

Multimodal Speech Recognition for Language-Guided Embodied Agents

要約 言語ガイド付きの具体化されたエージェントのベンチマークは通常、テキストベー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multimodal Speech Recognition for Language-Guided Embodied Agents はコメントを受け付けていません

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator

要約 転写された音声データ、テキスト データ、または両方の混合でトレーニングでき … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator はコメントを受け付けていません