eess.AS」カテゴリーアーカイブ

The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement

要約 改善された音声強調モデルを取得するために、研究者は多くの場合、特定の計測基 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement はコメントを受け付けていません

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

要約 トランスフォーマーは、CNN に基づく方法を超えて、急速にオーディオ分類に … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Audio Mamba: Bidirectional State Space Model for Audio Representation Learning はコメントを受け付けていません

Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

要約 我々は、(i) 自己教師付きの事前トレーニング済みモデル、および (ii) … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition はコメントを受け付けていません

Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters

要約 Mixture of Experts (MoE) アーキテクチャは、手頃な … 続きを読む

カテゴリー: cs.AI, eess.AS | Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters はコメントを受け付けていません

Explainable Deep Learning Analysis for Raga Identification in Indian Art Music

要約 ラーガ識別のタスクは、音楽情報検索において非常に人気のある研究課題です。 … 続きを読む

カテゴリー: cs.AI, eess.AS | Explainable Deep Learning Analysis for Raga Identification in Indian Art Music はコメントを受け付けていません

How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio?

要約 文章を部分的に操作すると、その意味が大きく変わってしまいます。 最近の研究 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio? はコメントを受け付けていません

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

要約 我々はDITTO(Diffusion Inference-Time T-O … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | DITTO: Diffusion Inference-Time T-Optimization for Music Generation はコメントを受け付けていません

SpeechVerse: A Large-scale Generalizable Audio Language Model

要約 大規模言語モデル (LLM) は、自然言語命令の意味的理解を必要とするタス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SpeechVerse: A Large-scale Generalizable Audio Language Model はコメントを受け付けていません

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

要約 複数の生成基盤モデル、特にさまざまなモダリティでトレーニングされたモデルを … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities はコメントを受け付けていません

Iterative Feature Boosting for Explainable Speech Emotion Recognition

要約 音声感情認識 (SER) では、実際の重要性を考慮せずに事前定義された特徴 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS, I.2.1 | Iterative Feature Boosting for Explainable Speech Emotion Recognition はコメントを受け付けていません