eess.AS」カテゴリーアーカイブ

Task-Agnostic Structured Pruning of Speech Representation Models

要約 Wav2vec2、Hubert、WavLMなどの自己教師付き事前学習モデル … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Task-Agnostic Structured Pruning of Speech Representation Models はコメントを受け付けていません

Towards Robust FastSpeech 2 by Modelling Residual Multimodality

要約 FastSpeech 2をベースとした最新の非自己回帰的音声合成モデルによ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Towards Robust FastSpeech 2 by Modelling Residual Multimodality はコメントを受け付けていません

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

要約 音声表現を学習するための自己教師技術は、人間のラベルを必要とせず、音声に触 … 続きを読む

カテゴリー: cs.CL, eess.AS, stat.ML | BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models はコメントを受け付けていません

End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders

要約 音声言語理解(SLU)では、テキスト情報がないため、音声信号から直接意味を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders はコメントを受け付けていません

Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition

要約 話者識別システムは、トレーニングやテストが行​​われる実験室の条件とは異な … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition はコメントを受け付けていません

How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics

要約 生成音声言語モデリング (GSLM) の音声モデリングの可能性を調べます。 … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics はコメントを受け付けていません

Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning

要約 統合されたストリーミングおよび非ストリーミング音声認識モデルは、その包括的 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning はコメントを受け付けていません

SQuId: Measuring Speech Naturalness in Many Languages

要約 テキスト読み上げの研究の多くは人間による評価に依存しているため、多大なコス … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | SQuId: Measuring Speech Naturalness in Many Languages はコメントを受け付けていません

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition

要約 追加のコンテキスト情報を組み込むことにより、ディープ バイアス手法が、パー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition はコメントを受け付けていません

UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model

要約 この論文では、さまざまな音声逆タスクを解決できる拡散確率モデル UnDif … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model はコメントを受け付けていません