「eess.AS」カテゴリーアーカイブ

Task-Agnostic Structured Pruning of Speech Representation Models

投稿日: 2023年6月5日作成者: jarxiv

要約 Wav2vec2、Hubert、WavLMなどの自己教師付き事前学習モデル … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Towards Robust FastSpeech 2 by Modelling Residual Multimodality

投稿日: 2023年6月5日作成者: jarxiv

要約 FastSpeech 2をベースとした最新の非自己回帰的音声合成モデルによ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

投稿日: 2023年6月5日作成者: jarxiv

要約音声表現を学習するための自己教師技術は、人間のラベルを必要とせず、音声に触 … 続きを読む →

カテゴリー: cs.CL, eess.AS, stat.ML | コメントを受け付けていません

End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders

投稿日: 2023年6月5日作成者: jarxiv

要約音声言語理解（SLU）では、テキスト情報がないため、音声信号から直接意味を … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition

投稿日: 2023年6月2日作成者: jarxiv

要約話者識別システムは、トレーニングやテストが行われる実験室の条件とは異な … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics

投稿日: 2023年6月2日作成者: jarxiv

要約生成音声言語モデリング (GSLM) の音声モデリングの可能性を調べます。 … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS | コメントを受け付けていません

Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning

投稿日: 2023年6月2日作成者: jarxiv

要約統合されたストリーミングおよび非ストリーミング音声認識モデルは、その包括的 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SQuId: Measuring Speech Naturalness in Many Languages

投稿日: 2023年6月2日作成者: jarxiv

要約テキスト読み上げの研究の多くは人間による評価に依存しているため、多大なコス … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition

投稿日: 2023年6月2日作成者: jarxiv

要約追加のコンテキスト情報を組み込むことにより、ディープバイアス手法が、パー … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model

投稿日: 2023年6月2日作成者: jarxiv

要約この論文では、さまざまな音声逆タスクを解決できる拡散確率モデル UnDif … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Task-Agnostic Structured Pruning of Speech Representation Models

Towards Robust FastSpeech 2 by Modelling Residual Multimodality

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders

Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition

How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics

Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning

SQuId: Measuring Speech Naturalness in Many Languages

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition

UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー