「eess.AS」カテゴリーアーカイブ

Learning Spatially-Aware Language and Audio Embedding

投稿日: 2024年9月18日作成者: jarxiv

要約人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Spontaneous Informal Speech Dataset for Punctuation Restoration

投稿日: 2024年9月18日作成者: jarxiv

要約現在、句読点復元モデルは、ほぼ完全に構造化され、スクリプト化されたコーパス … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

WER We Stand: Benchmarking Urdu ASR Models

投稿日: 2024年9月18日作成者: jarxiv

要約このペーパーでは、ウルドゥー語自動音声認識 (ASR) モデルの包括的な評 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

High-Resolution Speech Restoration with Latent Diffusion Model

投稿日: 2024年9月18日作成者: jarxiv

要約従来の音声強調方法は、単一の種類の歪みに焦点を当てて復元タスクを過度に単純 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Learning Source Disentanglement in Neural Audio Codec

投稿日: 2024年9月18日作成者: jarxiv

要約ニューラルオーディオコーデックは、連続オーディオ信号を個別のトークンに … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection

投稿日: 2024年9月18日作成者: jarxiv

要約この論文では、高齢者の幸福を促進することを目的としたスマートホームアプ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution

投稿日: 2024年9月18日作成者: jarxiv

要約音声超解像度 (SSR) は、失われた高周波成分を復元することによって、低 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models

投稿日: 2024年9月17日作成者: jarxiv

要約自己教師あり学習 (SSL) の最近の進歩により、話者検証 (SV) にお … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training

投稿日: 2024年9月17日作成者: jarxiv

要約主流の自動音声認識 (ASR) テクノロジーでは、通常、数百時間から数千時 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT

投稿日: 2024年9月17日作成者: jarxiv

要約自己教師付き音声表現学習は、転写されていない音声から意味のある特徴を抽出す … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Learning Spatially-Aware Language and Audio Embedding

Spontaneous Informal Speech Dataset for Punctuation Restoration

WER We Stand: Benchmarking Urdu ASR Models

High-Resolution Speech Restoration with Latent Diffusion Model

Learning Source Disentanglement in Neural Audio Codec

The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection

Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution

Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models

Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training

Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT

最近の投稿

最近のコメント

アーカイブ

カテゴリー