eess.AS」カテゴリーアーカイブ

Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation

要約 拡散モデルと大規模言語モデル (LLM) の最近の進歩により、AIGC の … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation はコメントを受け付けていません

StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis

要約 ドメイン外 (OOD) 歌声合成 (SVS) のためのスタイル転送は、リフ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis はコメントを受け付けていません

Efficient Parallel Audio Generation using Group Masked Language Modeling

要約 並列オーディオ生成のための高速かつ高品質のコーデック言語モデルを紹介します … 続きを読む

カテゴリー: cs.AI, cs.LG, eess.AS | Efficient Parallel Audio Generation using Group Masked Language Modeling はコメントを受け付けていません

Collaborative Watermarking for Adversarial Speech Synthesis

要約 ニューラル音声合成の進歩により、人間の自然さに近いだけでなく、少ないデータ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Collaborative Watermarking for Adversarial Speech Synthesis はコメントを受け付けていません

In-depth analysis of music structure as a text network

要約 魅惑的で詩的な音楽は、人類文明の隅々に浸透しています。 音楽は人々にとって … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | In-depth analysis of music structure as a text network はコメントを受け付けていません

Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion

要約 音声変換 (VC) は、言語内容を保持しながら、人の声を変更して別の人の声 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion はコメントを受け付けていません

Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

要約 自動音楽転写 (AMT) は、音楽情報処理の分野において重要なテクノロジー … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion はコメントを受け付けていません

AQUALLM: Audio Question Answering Data Generation Using Large Language Models

要約 音声質問応答 (AQA) は、機械が音声信号と自然言語の質問の両方を分析し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS, I.2.7 | AQUALLM: Audio Question Answering Data Generation Using Large Language Models はコメントを受け付けていません

Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion

要約 感情音声変換は、非感情要素を保持しながら、特定の感情に従って音声を操作する … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion はコメントを受け付けていません

Self-Supervised Learning for Few-Shot Bird Sound Classification

要約 オーディオの自己教師あり学習 (SSL) は、さまざまなドメインにわたって … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Self-Supervised Learning for Few-Shot Bird Sound Classification はコメントを受け付けていません