eess.AS」カテゴリーアーカイブ

Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations

要約 Expressive Text-to-Speech (TTS) は、人間の … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations はコメントを受け付けていません

Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features

要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features はコメントを受け付けていません

Active Noise Control Portable Device Design

要約 私たちの世界は、私たちが楽しまずにはいられない独自の自然音で満たされている … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Active Noise Control Portable Device Design はコメントを受け付けていません

Controllable Music Production with Diffusion Models and Guidance Gradients

要約 拡散モデルからの条件付き生成を使用して、サンプリング時間ガイダンスを使用し … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Controllable Music Production with Diffusion Models and Guidance Gradients はコメントを受け付けていません

Detecting Syllable-Level Pronunciation Stress with A Self-Attention Model

要約 効果的な口頭コミュニケーションの前提条件の 1 つは、特に非母語話者にとっ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Detecting Syllable-Level Pronunciation Stress with A Self-Attention Model はコメントを受け付けていません

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

要約 事前トレーニングされた音声認識モデルのサイズが大きくなるにつれて、これらの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling はコメントを受け付けていません

SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations

要約 エンドツーエンドの音声翻訳は、利用可能なデータ リソースの不足によって妨げ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations はコメントを受け付けていません

End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation

要約 従来の音声からテキストへの翻訳 (ST) システムは、単一話者の発話に基づ … 続きを読む

カテゴリー: cs.CL, eess.AS | End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation はコメントを受け付けていません

Disentangling Voice and Content with Self-Supervision for Speaker Recognition

要約 話者認識の場合、話者の特徴​​と内容が混在しているため、音声から正確な話者 … 続きを読む

カテゴリー: cs.AI, eess.AS | Disentangling Voice and Content with Self-Supervision for Speaker Recognition はコメントを受け付けていません

Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features

要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features はコメントを受け付けていません