eess.AS」カテゴリーアーカイブ

Low latency transformers for speech processing

要約 トランスフォーマーは、最新のニューラル ネットワークで広く使用されているビ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Low latency transformers for speech processing はコメントを受け付けていません

Cross-Modal Mutual Learning for Cued Speech Recognition

要約 Automatic Cued Speech Recognition (AC … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Cross-Modal Mutual Learning for Cued Speech Recognition はコメントを受け付けていません

Dynamic Kernels and Channel Attention for Low Resource Speaker Verification

要約 最先端の話者検証フレームワークは通常、検証パフォーマンスを向上させるために … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Dynamic Kernels and Channel Attention for Low Resource Speaker Verification はコメントを受け付けていません

Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech

要約 一時停止の挿入は、フレーズ区切り予測およびフレージングとも呼ばれ、TTS … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech はコメントを受け付けていません

Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition

要約 データの欠如とマルチモーダル融合の難しさは、マルチモーダル感情認識 (ME … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition はコメントを受け付けていません

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

要約 この作業は、Generative Spoken Language Mode … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling はコメントを受け付けていません

MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition

要約 多言語音声認識は、異なる言語の言語表現を区別し、同時に音響処理を統合するこ … 続きを読む

カテゴリー: cs.CL, eess.AS | MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition はコメントを受け付けていません

Multimodal Speech Recognition for Language-Guided Embodied Agents

要約 言語ガイド付きの具体化されたエージェントのベンチマークは通常、テキストベー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multimodal Speech Recognition for Language-Guided Embodied Agents はコメントを受け付けていません

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator

要約 転写された音声データ、テキスト データ、または両方の混合でトレーニングでき … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator はコメントを受け付けていません

A Comparative Analysis Of Latent Regressor Losses For Singing Voice Conversion

要約 以前の研究では、話し声変換 (VC) の確立された手法は、歌声変換 (SV … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | A Comparative Analysis Of Latent Regressor Losses For Singing Voice Conversion はコメントを受け付けていません