eess.AS」カテゴリーアーカイブ

Pre-Finetuning for Few-Shot Emotional Speech Recognition

要約 音声モデルは、多くの分類タスクで個々の話者に過剰適合することが長い間知られ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Pre-Finetuning for Few-Shot Emotional Speech Recognition はコメントを受け付けていません

UniFLG: Unified Facial Landmark Generator from Text or Speech

要約 話し顔の生成は、その幅広い適用性のために広く研究されてきました。 会話面の … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | UniFLG: Unified Facial Landmark Generator from Text or Speech はコメントを受け付けていません

Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla

要約 データ駆動型の自然言語処理システムのパフォーマンスは、コーパスの品質に左右 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla はコメントを受け付けていません

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

要約 障害のある高齢者の発話の自動認識は、そのようなデータを大量に収集することが … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition はコメントを受け付けていません

Low latency transformers for speech processing

要約 トランスフォーマーは、最新のニューラル ネットワークで広く使用されているビ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Low latency transformers for speech processing はコメントを受け付けていません

Cross-Modal Mutual Learning for Cued Speech Recognition

要約 Automatic Cued Speech Recognition (AC … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Cross-Modal Mutual Learning for Cued Speech Recognition はコメントを受け付けていません

Dynamic Kernels and Channel Attention for Low Resource Speaker Verification

要約 最先端の話者検証フレームワークは通常、検証パフォーマンスを向上させるために … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Dynamic Kernels and Channel Attention for Low Resource Speaker Verification はコメントを受け付けていません

Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech

要約 一時停止の挿入は、フレーズ区切り予測およびフレージングとも呼ばれ、TTS … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech はコメントを受け付けていません

Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition

要約 データの欠如とマルチモーダル融合の難しさは、マルチモーダル感情認識 (ME … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition はコメントを受け付けていません

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

要約 この作業は、Generative Spoken Language Mode … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling はコメントを受け付けていません