eess.AS」カテゴリーアーカイブ

A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning

要約 タイトル: 音声ビジュアルスピーチ表現学習のための多様なダイナミカル変分自 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning はコメントを受け付けていません

Employing Hybrid Deep Neural Networks on Dari Speech

要約 タイトル:ダリ語音声に対するハイブリッド深層ニューラルネットワークの利用 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Employing Hybrid Deep Neural Networks on Dari Speech はコメントを受け付けていません

Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text Tasks

要約 タイトル:音声からテキストへのタスクのためのハイブリッドトランスデューサー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text Tasks はコメントを受け付けていません

MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation

要約 タイトル:MedleyVox:複数の歌声分離の評価データセット 要約: & … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation はコメントを受け付けていません

The language of sounds unheard: Exploring musical timbre semantics of large language models

要約 タイトル: 聞こえない音の言語:大規模言語モデルの音楽音色セマンティックス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | The language of sounds unheard: Exploring musical timbre semantics of large language models はコメントを受け付けていません

End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders

要約 タイトル:Joint CTC lossと自己教師あり事前学習音声エンコーダ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders はコメントを受け付けていません

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

要約 タイトル:NaturalSpeech 2:潜在的拡散モデルは自然で、ゼロシ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers はコメントを受け付けていません

Unsupervised Improvement of Audio-Text Cross-Modal Representations

要約 タイトル:オーディオ-テキストのクロスモーダル表現の自己学習改善 要約: … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised Improvement of Audio-Text Cross-Modal Representations はコメントを受け付けていません

Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition

要約 タイトル:End-to-Endノイズロバスト音声認識におけるマルチタスク学 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition はコメントを受け付けていません

What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis

要約 タイトル:エンドツーエンド音声モデルは話者、言語、チャネル情報について何を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis はコメントを受け付けていません