eess.AS」カテゴリーアーカイブ

Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token Based ASR

要約 最近、SpeechGPT、VioLA、AudioPaLM などの統合音声テ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token Based ASR はコメントを受け付けていません

Speech language models lack important brain-relevant semantics

要約 脳における読むことと聞くことの違いは知られていますが、最近の研究では、テキ … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS, q-bio.NC | Speech language models lack important brain-relevant semantics はコメントを受け付けていません

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

要約 音声変換 (VC) システムは音声スタイルを転送する顕著な能力を示していま … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation はコメントを受け付けていません

Rethinking and Improving Multi-task Learning for End-to-end Speech Translation

要約 マルチタスク学習の適用により、エンドツーエンドの音声翻訳 (ST) が大幅 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Rethinking and Improving Multi-task Learning for End-to-end Speech Translation はコメントを受け付けていません

Can CLIP Help Sound Source Localization?

要約 大規模な事前トレーニング済み画像テキスト モデルは、その堅牢な表現機能と効 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Can CLIP Help Sound Source Localization? はコメントを受け付けていません

Proceedings of the 5th International Workshop on Reading Music Systems

要約 International Workshop on Reading Mus … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.LG, cs.SD, eess.AS | Proceedings of the 5th International Workshop on Reading Music Systems はコメントを受け付けていません

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation

要約 最近、拡散モデルが高品質の音声生成に関連していることが示されています。 ほ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation はコメントを受け付けていません

DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts はコメントを受け付けていません

Textually Pretrained Speech Language Models

要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Textually Pretrained Speech Language Models はコメントを受け付けていません

Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

要約 自動音声認識 (ASR) を利用したオンデバイスの仮想アシスタント (VA … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants はコメントを受け付けていません