cs.SD」カテゴリーアーカイブ

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

要約 音声変換 (VC) システムは音声スタイルを転送する顕著な能力を示していま … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation はコメントを受け付けていません

Rethinking and Improving Multi-task Learning for End-to-end Speech Translation

要約 マルチタスク学習の適用により、エンドツーエンドの音声翻訳 (ST) が大幅 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Rethinking and Improving Multi-task Learning for End-to-end Speech Translation はコメントを受け付けていません

Can CLIP Help Sound Source Localization?

要約 大規模な事前トレーニング済み画像テキスト モデルは、その堅牢な表現機能と効 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Can CLIP Help Sound Source Localization? はコメントを受け付けていません

Proceedings of the 5th International Workshop on Reading Music Systems

要約 International Workshop on Reading Mus … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.LG, cs.SD, eess.AS | Proceedings of the 5th International Workshop on Reading Music Systems はコメントを受け付けていません

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation

要約 最近、拡散モデルが高品質の音声生成に関連していることが示されています。 ほ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation はコメントを受け付けていません

DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts はコメントを受け付けていません

Textually Pretrained Speech Language Models

要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Textually Pretrained Speech Language Models はコメントを受け付けていません

Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

要約 自動音声認識 (ASR) を利用したオンデバイスの仮想アシスタント (VA … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants はコメントを受け付けていません

Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations

要約 Expressive Text-to-Speech (TTS) は、人間の … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations はコメントを受け付けていません

Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features

要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features はコメントを受け付けていません