cs.SD」カテゴリーアーカイブ

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization

要約 このレポートでは、Ego4D Challenge 2023 のオーディオビ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization はコメントを受け付けていません

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation

要約 生成人工知能の急速な進歩に伴い、テキストから音楽への合成タスクが、ゼロから … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation はコメントを受け付けていません

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System

要約 アラビア語は、世界中で 4 億 5,000 万人以上が話す、多くの種類と方 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System はコメントを受け付けていません

Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN

要約 この論文では、わずか 4 つのノイズ除去ステップ内で音声サンプルを生成する … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN はコメントを受け付けていません

Separate Anything You Describe

要約 Language-Queryed Audio Source Separat … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Separate Anything You Describe はコメントを受け付けていません

Towards Matching Phones and Speech Representations

要約 電話インスタンスから電話タイプを学習することは、まだオープンなままではある … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Towards Matching Phones and Speech Representations はコメントを受け付けていません

Is Attention always needed? A Case Study on Language Identification from Speech

要約 言語識別 (LID) は、自動音声認識 (ASR) の分野における重要な予 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP | Is Attention always needed? A Case Study on Language Identification from Speech はコメントを受け付けていません

Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors

要約 音声対話システムでは、NLU モデルの前に音声認識システムが配置され、自然 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors はコメントを受け付けていません

ArTST: Arabic Text and Speech Transformer

要約 アラビア語のオープンソース音声技術をサポートするための、事前トレーニングさ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | ArTST: Arabic Text and Speech Transformer はコメントを受け付けていません

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

要約 音声強調システムは通常、きれいな音声とノイズのある音声のペアを使用してトレ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement はコメントを受け付けていません