「cs.SD」カテゴリーアーカイブ

ASR Benchmarking: Need for a More Representative Conversational Dataset

投稿日: 2024年9月19日作成者: jarxiv

要約自動音声認識 (ASR) システムは、LibriSpeech や Fleu … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference

投稿日: 2024年9月19日作成者: jarxiv

要約大規模言語モデル (LLM) は、オーディオを個別のトークンに変換するオー … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD)

投稿日: 2024年9月19日作成者: jarxiv

要約このペーパーでは、組み込みシステム、モバイルデバイス、モノのインターネッ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

投稿日: 2024年9月19日作成者: jarxiv

要約ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

LC-Protonets: Multi-label Few-shot learning for world music audio tagging

投稿日: 2024年9月18日作成者: jarxiv

要約我々は、モデルを少数の利用可能な例のみに基づいて新しいクラスに一般化する必 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Learning Spatially-Aware Language and Audio Embedding

投稿日: 2024年9月18日作成者: jarxiv

要約人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Spontaneous Informal Speech Dataset for Punctuation Restoration

投稿日: 2024年9月18日作成者: jarxiv

要約現在、句読点復元モデルは、ほぼ完全に構造化され、スクリプト化されたコーパス … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

WER We Stand: Benchmarking Urdu ASR Models

投稿日: 2024年9月18日作成者: jarxiv

要約このペーパーでは、ウルドゥー語自動音声認識 (ASR) モデルの包括的な評 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

High-Resolution Speech Restoration with Latent Diffusion Model

投稿日: 2024年9月18日作成者: jarxiv

要約従来の音声強調方法は、単一の種類の歪みに焦点を当てて復元タスクを過度に単純 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Learning Source Disentanglement in Neural Audio Codec

投稿日: 2024年9月18日作成者: jarxiv

要約ニューラルオーディオコーデックは、連続オーディオ信号を個別のトークンに … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

ASR Benchmarking: Need for a More Representative Conversational Dataset

Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference

Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD)

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

LC-Protonets: Multi-label Few-shot learning for world music audio tagging

Learning Spatially-Aware Language and Audio Embedding

Spontaneous Informal Speech Dataset for Punctuation Restoration

WER We Stand: Benchmarking Urdu ASR Models

High-Resolution Speech Restoration with Latent Diffusion Model

Learning Source Disentanglement in Neural Audio Codec

最近の投稿

最近のコメント

アーカイブ

カテゴリー