「eess.AS」カテゴリーアーカイブ

Can CLIP Help Sound Source Localization?

投稿日: 2023年11月8日作成者: jarxiv

要約大規模な事前トレーニング済み画像テキストモデルは、その堅牢な表現機能と効 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Proceedings of the 5th International Workshop on Reading Music Systems

投稿日: 2023年11月8日作成者: jarxiv

要約 International Workshop on Reading Mus … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation

投稿日: 2023年11月7日作成者: jarxiv

要約最近、拡散モデルが高品質の音声生成に関連していることが示されています。ほ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

投稿日: 2023年11月3日作成者: jarxiv

要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Textually Pretrained Speech Language Models

投稿日: 2023年11月3日作成者: jarxiv

要約音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

投稿日: 2023年11月3日作成者: jarxiv

要約自動音声認識 (ASR) を利用したオンデバイスの仮想アシスタント (VA … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations

投稿日: 2023年11月3日作成者: jarxiv

要約 Expressive Text-to-Speech (TTS) は、人間の … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features

投稿日: 2023年11月3日作成者: jarxiv

要約ディープニューラルネットワークは、自動話者認識および関連タスクにおいて … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Active Noise Control Portable Device Design

投稿日: 2023年11月2日作成者: jarxiv

要約私たちの世界は、私たちが楽しまずにはいられない独自の自然音で満たされている … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Controllable Music Production with Diffusion Models and Guidance Gradients

投稿日: 2023年11月2日作成者: jarxiv

要約拡散モデルからの条件付き生成を使用して、サンプリング時間ガイダンスを使用し … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Can CLIP Help Sound Source Localization?

Proceedings of the 5th International Workshop on Reading Music Systems

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation

DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

Textually Pretrained Speech Language Models

Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations

Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features

Active Noise Control Portable Device Design

Controllable Music Production with Diffusion Models and Guidance Gradients

最近の投稿

最近のコメント

アーカイブ

カテゴリー