eess.AS」カテゴリーアーカイブ

LC-Protonets: Multi-label Few-shot learning for world music audio tagging

要約 我々は、モデルを少数の利用可能な例のみに基づいて新しいクラスに一般化する必 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | LC-Protonets: Multi-label Few-shot learning for world music audio tagging はコメントを受け付けていません

Learning Spatially-Aware Language and Audio Embedding

要約 人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Learning Spatially-Aware Language and Audio Embedding はコメントを受け付けていません

Spontaneous Informal Speech Dataset for Punctuation Restoration

要約 現在、句読点復元モデルは、ほぼ完全に構造化され、スクリプト化されたコーパス … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | Spontaneous Informal Speech Dataset for Punctuation Restoration はコメントを受け付けていません

WER We Stand: Benchmarking Urdu ASR Models

要約 このペーパーでは、ウルドゥー語自動音声認識 (ASR) モデルの包括的な評 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | WER We Stand: Benchmarking Urdu ASR Models はコメントを受け付けていません

High-Resolution Speech Restoration with Latent Diffusion Model

要約 従来の音声強調方法は、単一の種類の歪みに焦点を当てて復元タスクを過度に単純 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | High-Resolution Speech Restoration with Latent Diffusion Model はコメントを受け付けていません

Learning Source Disentanglement in Neural Audio Codec

要約 ニューラル オーディオ コーデックは、連続オーディオ信号を個別のトークンに … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Learning Source Disentanglement in Neural Audio Codec はコメントを受け付けていません

The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection

要約 この論文では、高齢者の幸福を促進することを目的としたスマート ホーム アプ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection はコメントを受け付けていません

Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution

要約 音声超解像度 (SSR) は、失われた高周波成分を復元することによって、低 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution はコメントを受け付けていません

Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models

要約 自己教師あり学習 (SSL) の最近の進歩により、話者検証 (SV) にお … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models はコメントを受け付けていません

Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training

要約 主流の自動音声認識 (ASR) テクノロジーでは、通常、数百時間から数千時 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training はコメントを受け付けていません