eess.AS」カテゴリーアーカイブ

SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition

要約 自動音声認識 (ASR) におけるエラー修正は、ASR モデルによって生成 … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition はコメントを受け付けていません

FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous Self-Supervised Learning

要約 継続的な事前トレーニング (CP) には、ターゲット ドメインへの適応や、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous Self-Supervised Learning はコメントを受け付けていません

Evaluating Speech-in-Speech Perception via a Humanoid Robot

要約 背景の話者によって隠蔽される音声知覚の根本的なメカニズム、つまり日常の一般 … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Evaluating Speech-in-Speech Perception via a Humanoid Robot はコメントを受け付けていません

Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling

要約 会話型音声合成 (CSS) は、会話環境内で適切な韻律と感情の抑揚を備えた … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling はコメントを受け付けていません

Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition?

要約 実用的な音声聴力測定ツールは、さまざまな年齢や聴力状態の集団の聴力スクリー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition? はコメントを受け付けていません

SpokesBiz — an Open Corpus of Conversational Polish

要約 この文書は、CLARIN-BIZ プロジェクト内で開発され、650 時間以 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SpokesBiz — an Open Corpus of Conversational Polish はコメントを受け付けていません

StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis

要約 オーディオブック用の合成音声の表現品質は、一般化されたモデル アーキテクチ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis はコメントを受け付けていません

Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques

要約 音声ユーザー インターフェイスの使用の増加により、音声データの収集と保存が … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.SD, eess.AS | Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques はコメントを受け付けていません

Attention-Driven Multichannel Speech Enhancement in Moving Sound Source Scenarios

要約 現在のマルチチャネル音声強調アルゴリズムは通常、静止した音源を想定しており … 続きを読む

カテゴリー: cs.LG, eess.AS, eess.SP | Attention-Driven Multichannel Speech Enhancement in Moving Sound Source Scenarios はコメントを受け付けていません

Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled and Synthetic Data

要約 音楽とサウンド処理の分野では、ピッチ抽出が極めて重要な役割を果たします。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled and Synthetic Data はコメントを受け付けていません