「cs.SD」カテゴリーアーカイブ

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

投稿日: 2023年11月9日作成者: jarxiv

要約音声変換 (VC) システムは音声スタイルを転送する顕著な能力を示していま … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Rethinking and Improving Multi-task Learning for End-to-end Speech Translation

投稿日: 2023年11月8日作成者: jarxiv

要約マルチタスク学習の適用により、エンドツーエンドの音声翻訳 (ST) が大幅 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Can CLIP Help Sound Source Localization?

投稿日: 2023年11月8日作成者: jarxiv

要約大規模な事前トレーニング済み画像テキストモデルは、その堅牢な表現機能と効 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Proceedings of the 5th International Workshop on Reading Music Systems

投稿日: 2023年11月8日作成者: jarxiv

要約 International Workshop on Reading Mus … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation

投稿日: 2023年11月7日作成者: jarxiv

要約最近、拡散モデルが高品質の音声生成に関連していることが示されています。ほ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

投稿日: 2023年11月3日作成者: jarxiv

要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Textually Pretrained Speech Language Models

投稿日: 2023年11月3日作成者: jarxiv

要約音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

投稿日: 2023年11月3日作成者: jarxiv

要約自動音声認識 (ASR) を利用したオンデバイスの仮想アシスタント (VA … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations

投稿日: 2023年11月3日作成者: jarxiv

要約 Expressive Text-to-Speech (TTS) は、人間の … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features

投稿日: 2023年11月3日作成者: jarxiv

要約ディープニューラルネットワークは、自動話者認識および関連タスクにおいて … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

Rethinking and Improving Multi-task Learning for End-to-end Speech Translation

Can CLIP Help Sound Source Localization?

Proceedings of the 5th International Workshop on Reading Music Systems

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation

DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

Textually Pretrained Speech Language Models

Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations

Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features

最近の投稿

最近のコメント

アーカイブ

カテゴリー