「cs.SD」カテゴリーアーカイブ

Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla

投稿日: 2023年3月1日作成者: jarxiv

要約データ駆動型の自然言語処理システムのパフォーマンスは、コーパスの品質に左右 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

投稿日: 2023年3月1日作成者: jarxiv

要約障害のある高齢者の発話の自動認識は、そのようなデータを大量に収集することが … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Low latency transformers for speech processing

投稿日: 2023年2月28日作成者: jarxiv

要約トランスフォーマーは、最新のニューラルネットワークで広く使用されているビ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Cross-Modal Mutual Learning for Cued Speech Recognition

投稿日: 2023年2月28日作成者: jarxiv

要約 Automatic Cued Speech Recognition (AC … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Dynamic Kernels and Channel Attention for Low Resource Speaker Verification

投稿日: 2023年2月28日作成者: jarxiv

要約最先端の話者検証フレームワークは通常、検証パフォーマンスを向上させるために … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech

投稿日: 2023年2月28日作成者: jarxiv

要約一時停止の挿入は、フレーズ区切り予測およびフレージングとも呼ばれ、TTS … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition

投稿日: 2023年2月28日作成者: jarxiv

要約データの欠如とマルチモーダル融合の難しさは、マルチモーダル感情認識 (ME … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

投稿日: 2023年2月28日作成者: jarxiv

要約この作業は、Generative Spoken Language Mode … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Multimodal Speech Recognition for Language-Guided Embodied Agents

投稿日: 2023年2月28日作成者: jarxiv

要約言語ガイド付きの具体化されたエージェントのベンチマークは通常、テキストベー … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator

投稿日: 2023年2月28日作成者: jarxiv

要約転写された音声データ、テキストデータ、または両方の混合でトレーニングでき … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

Low latency transformers for speech processing

Cross-Modal Mutual Learning for Cued Speech Recognition

Dynamic Kernels and Channel Attention for Low Resource Speaker Verification

Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech

Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

Multimodal Speech Recognition for Language-Guided Embodied Agents

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator

最近の投稿

最近のコメント

アーカイブ

カテゴリー