cs.SD」カテゴリーアーカイブ

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models はコメントを受け付けていません

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models はコメントを受け付けていません

ASR Benchmarking: Need for a More Representative Conversational Dataset

要約 自動音声認識 (ASR) システムは、LibriSpeech や Fleu … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ASR Benchmarking: Need for a More Representative Conversational Dataset はコメントを受け付けていません

Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference

要約 大規模言語モデル (LLM) は、オーディオを個別のトークンに変換するオー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference はコメントを受け付けていません

Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD)

要約 このペーパーでは、組み込みシステム、モバイル デバイス、モノのインターネッ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD) はコメントを受け付けていません

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models はコメントを受け付けていません

LC-Protonets: Multi-label Few-shot learning for world music audio tagging

要約 我々は、モデルを少数の利用可能な例のみに基づいて新しいクラスに一般化する必 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | LC-Protonets: Multi-label Few-shot learning for world music audio tagging はコメントを受け付けていません

Learning Spatially-Aware Language and Audio Embedding

要約 人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Learning Spatially-Aware Language and Audio Embedding はコメントを受け付けていません

Spontaneous Informal Speech Dataset for Punctuation Restoration

要約 現在、句読点復元モデルは、ほぼ完全に構造化され、スクリプト化されたコーパス … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | Spontaneous Informal Speech Dataset for Punctuation Restoration はコメントを受け付けていません

WER We Stand: Benchmarking Urdu ASR Models

要約 このペーパーでは、ウルドゥー語自動音声認識 (ASR) モデルの包括的な評 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | WER We Stand: Benchmarking Urdu ASR Models はコメントを受け付けていません