「eess.AS」カテゴリーアーカイブ

Pre-Finetuning for Few-Shot Emotional Speech Recognition

投稿日: 2023年3月1日作成者: jarxiv

要約音声モデルは、多くの分類タスクで個々の話者に過剰適合することが長い間知られ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

UniFLG: Unified Facial Landmark Generator from Text or Speech

投稿日: 2023年3月1日作成者: jarxiv

要約話し顔の生成は、その幅広い適用性のために広く研究されてきました。会話面の … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla

投稿日: 2023年3月1日作成者: jarxiv

要約データ駆動型の自然言語処理システムのパフォーマンスは、コーパスの品質に左右 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

投稿日: 2023年3月1日作成者: jarxiv

要約障害のある高齢者の発話の自動認識は、そのようなデータを大量に収集することが … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Low latency transformers for speech processing

投稿日: 2023年2月28日作成者: jarxiv

要約トランスフォーマーは、最新のニューラルネットワークで広く使用されているビ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Cross-Modal Mutual Learning for Cued Speech Recognition

投稿日: 2023年2月28日作成者: jarxiv

要約 Automatic Cued Speech Recognition (AC … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Dynamic Kernels and Channel Attention for Low Resource Speaker Verification

投稿日: 2023年2月28日作成者: jarxiv

要約最先端の話者検証フレームワークは通常、検証パフォーマンスを向上させるために … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech

投稿日: 2023年2月28日作成者: jarxiv

要約一時停止の挿入は、フレーズ区切り予測およびフレージングとも呼ばれ、TTS … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition

投稿日: 2023年2月28日作成者: jarxiv

要約データの欠如とマルチモーダル融合の難しさは、マルチモーダル感情認識 (ME … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

投稿日: 2023年2月28日作成者: jarxiv

要約この作業は、Generative Spoken Language Mode … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Pre-Finetuning for Few-Shot Emotional Speech Recognition

UniFLG: Unified Facial Landmark Generator from Text or Speech

Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

Low latency transformers for speech processing

Cross-Modal Mutual Learning for Cued Speech Recognition

Dynamic Kernels and Channel Attention for Low Resource Speaker Verification

Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech

Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

最近の投稿

最近のコメント

アーカイブ

カテゴリー