cs.SD」カテゴリーアーカイブ

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

要約 音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models はコメントを受け付けていません

Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework

要約 一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework はコメントを受け付けていません

DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework

要約 音声駆動型ジェスチャ生成は、バーチャルヒューマン創作における新たな領域であ … 続きを読む

カテゴリー: cs.AI, cs.GR, cs.RO, cs.SD | DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework はコメントを受け付けていません

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio

要約 西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む

カテゴリー: 68P20, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio はコメントを受け付けていません

Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation

要約 近年、大規模音声合成(TTS)モデルは大きな進歩を遂げているが、中国語の方 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation はコメントを受け付けていません

YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation

要約 マルチ楽器音楽転写は、ポリフォニック音楽録音を各楽器に割り当てられた楽譜に … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation はコメントを受け付けていません

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms

要約 VoIP (Voice over Internet Protocol) 通 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms はコメントを受け付けていません

Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio

要約 音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネス モ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio はコメントを受け付けていません

Generative Expressive Conversational Speech Synthesis

要約 会話型音声合成 (CSS) は、ユーザー エージェントの会話設定において、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Generative Expressive Conversational Speech Synthesis はコメントを受け付けていません

Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy

要約 Machine Listening は、オーディオ信号から関連情報を抽出す … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy はコメントを受け付けていません