cs.SD」カテゴリーアーカイブ

Speak While You Think: Streaming Speech Synthesis During Text Generation

要約 大規模言語モデル (LLM) は優れた機能を示しますが、これらのモデルとの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speak While You Think: Streaming Speech Synthesis During Text Generation はコメントを受け付けていません

Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition

要約 方言に対する効果的な自動音声認識 (ASR) ソリューションを作成するには … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition はコメントを受け付けていません

Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff

要約 ブロック単位のセルフアテンション エンコーダ モデルは、同時音声翻訳に対す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff はコメントを受け付けていません

Long-Form End-to-End Speech Translation via Latent Alignment Segmentation

要約 現在の同時音声翻訳モデルは、最大数秒の音声しか処理できません。 現代のデー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Long-Form End-to-End Speech Translation via Latent Alignment Segmentation はコメントを受け付けていません

Automatic Bat Call Classification using Transformer Networks

要約 コウモリのエコーロケーション鳴き声からコウモリの種を自動的に識別することは … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Automatic Bat Call Classification using Transformer Networks はコメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

要約 AI コミュニティは、大規模なマルチモーダル データセットを活用した強力な … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation はコメントを受け付けていません

Motif-Centric Representation Learning for Symbolic Music

要約 音楽モチーフは、作曲の概念的な構成要素として、音楽構造の分析と自動作曲にと … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Motif-Centric Representation Learning for Symbolic Music はコメントを受け付けていません

Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation

要約 拡散モデルは、大部分の Text-to-Audio (TTA) 生成方法を … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation はコメントを受け付けていません

Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation

要約 話者ダイアライゼーションは、音声処理研究コミュニティ内でかなりの注目を集め … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation はコメントを受け付けていません