cs.SD」カテゴリーアーカイブ

Cross-Utterance Conditioned VAE for Speech Generation

要約 ニューラル ネットワークを活用した音声合成システムは、マルチメディア制作に … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Cross-Utterance Conditioned VAE for Speech Generation はコメントを受け付けていません

Adoption of AI Technology in the Music Mixing Workflow: An Investigation

要約 音楽業界における人工知能 (AI) テクノロジーの統合により、音楽の作曲、 … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | Adoption of AI Technology in the Music Mixing Workflow: An Investigation はコメントを受け付けていません

A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation

要約 映画的なオーディオ ソースの分離は、対話の幹、音楽の幹、およびそれらの混合 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation はコメントを受け付けていません

Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation

要約 マルチモーダルからテキストへの生成タスク用の事前トレーニング済みトランスフ … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD | Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation はコメントを受け付けていません

RoDia: A New Dataset for Romanian Dialect Identification from Speech

要約 方言の識別は、音声処理および言語テクノロジにおいて重要なタスクであり、音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | RoDia: A New Dataset for Romanian Dialect Identification from Speech はコメントを受け付けていません

Zero-Shot Audio Captioning via Audibility Guidance

要約 音声キャプションのタスクは、画像やビデオのキャプションなどのタスクと本質的 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Zero-Shot Audio Captioning via Audibility Guidance はコメントを受け付けていません

ImageBind-LLM: Multi-modality Instruction Tuning

要約 ImageBind-LLM は、ImageBind を介した大規模言語モデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | ImageBind-LLM: Multi-modality Instruction Tuning はコメントを受け付けていません

Matcha-TTS: A fast TTS architecture with conditional flow matching

要約 Matcha-TTS は、最適トランスポート条件付きフロー マッチング ( … 続きを読む

カテゴリー: 68T07, cs.HC, cs.LG, cs.SD, eess.AS, I.2.6 | Matcha-TTS: A fast TTS architecture with conditional flow matching はコメントを受け付けていません

GRASS: Unified Generation Model for Speech Semantic Understanding

要約 この論文では、音声データのタスク関連のプロンプトを条件とした意味ラベルを生 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | GRASS: Unified Generation Model for Speech Semantic Understanding はコメントを受け付けていません

Learning Speech Representation From Contrastive Token-Acoustic Pretraining

要約 最小教師あり音声合成 (TTS)、音声変換 (VC)、自動音声認識 (AS … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Learning Speech Representation From Contrastive Token-Acoustic Pretraining はコメントを受け付けていません