cs.SD」カテゴリーアーカイブ

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

要約 トランスフォーマーは、CNN に基づく方法を超えて、急速にオーディオ分類に … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Audio Mamba: Bidirectional State Space Model for Audio Representation Learning はコメントを受け付けていません

Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

要約 我々は、(i) 自己教師付きの事前トレーニング済みモデル、および (ii) … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition はコメントを受け付けていません

How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio?

要約 文章を部分的に操作すると、その意味が大きく変わってしまいます。 最近の研究 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio? はコメントを受け付けていません

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

要約 我々はDITTO(Diffusion Inference-Time T-O … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | DITTO: Diffusion Inference-Time T-Optimization for Music Generation はコメントを受け付けていません

SpeechVerse: A Large-scale Generalizable Audio Language Model

要約 大規模言語モデル (LLM) は、自然言語命令の意味的理解を必要とするタス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SpeechVerse: A Large-scale Generalizable Audio Language Model はコメントを受け付けていません

Iterative Feature Boosting for Explainable Speech Emotion Recognition

要約 音声感情認識 (SER) では、実際の重要性を考慮せずに事前定義された特徴 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS, I.2.1 | Iterative Feature Boosting for Explainable Speech Emotion Recognition はコメントを受け付けていません

Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting

要約 ほとんどの音声自己教師あり学習 (SSL) モデルは、入力信号の欠落部分 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting はコメントを受け付けていません

Iterative Feature Boosting for Explainable Speech Emotion Recognition

要約 音声感情認識 (SER) では、実際の重要性を考慮せずに事前定義された特徴 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS, I.2.1 | Iterative Feature Boosting for Explainable Speech Emotion Recognition はコメントを受け付けていません

DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

要約 制御可能な音楽生成方法は、人間中心の AI ベースの音楽作成にとって重要で … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD | DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation はコメントを受け付けていません

RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text

要約 この作品では、テキストの歌詞入力から直接 3D の全体的な体の動きを生成し … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text はコメントを受け付けていません