「cs.SD」カテゴリーアーカイブ

Collaborative Watermarking for Adversarial Speech Synthesis

投稿日: 2024年1月3日作成者: jarxiv

要約ニューラル音声合成の進歩により、人間の自然さに近いだけでなく、少ないデータ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

In-depth analysis of music structure as a text network

投稿日: 2024年1月3日作成者: jarxiv

要約魅惑的で詩的な音楽は、人類文明の隅々に浸透しています。音楽は人々にとって … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion

投稿日: 2024年1月2日作成者: jarxiv

要約音声変換 (VC) は、言語内容を保持しながら、人の声を変更して別の人の声 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

投稿日: 2024年1月2日作成者: jarxiv

要約自動音楽転写 (AMT) は、音楽情報処理の分野において重要なテクノロジー … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

AQUALLM: Audio Question Answering Data Generation Using Large Language Models

投稿日: 2024年1月1日作成者: jarxiv

要約音声質問応答 (AQA) は、機械が音声信号と自然言語の質問の両方を分析し … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion

投稿日: 2024年1月1日作成者: jarxiv

要約感情音声変換は、非感情要素を保持しながら、特定の感情に従って音声を操作する … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Self-Supervised Learning for Few-Shot Bird Sound Classification

投稿日: 2023年12月29日作成者: jarxiv

要約オーディオの自己教師あり学習 (SSL) は、さまざまなドメインにわたって … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer

投稿日: 2023年12月29日作成者: jarxiv

要約人間は、強勢の配置や感情の強さなど、さまざまな韻律属性を簡単に変更して、一 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Relationship between auditory and semantic entrainment using Deep Neural Networks (DNN)

投稿日: 2023年12月29日作成者: jarxiv

要約人々が相互作用するときに、同様の、一致する、または同期した行動をする傾向は … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Augmenting conformers with structured state-space sequence models for online speech recognition

投稿日: 2023年12月29日作成者: jarxiv

要約モデルが左側のコンテキストにのみアクセスするオンライン音声認識は、ASR … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Collaborative Watermarking for Adversarial Speech Synthesis

In-depth analysis of music structure as a text network

Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion

Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

AQUALLM: Audio Question Answering Data Generation Using Large Language Models

Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion

Self-Supervised Learning for Few-Shot Bird Sound Classification

Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer

Relationship between auditory and semantic entrainment using Deep Neural Networks (DNN)

Augmenting conformers with structured state-space sequence models for online speech recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー