「eess.AS」カテゴリーアーカイブ

The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement

投稿日: 2024年6月6日作成者: jarxiv

要約改善された音声強調モデルを取得するために、研究者は多くの場合、特定の計測基 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

投稿日: 2024年6月6日作成者: jarxiv

要約トランスフォーマーは、CNN に基づく方法を超えて、急速にオーディオ分類に … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

投稿日: 2024年6月5日作成者: jarxiv

要約我々は、(i) 自己教師付きの事前トレーニング済みモデル、および (ii) … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters

投稿日: 2024年6月5日作成者: jarxiv

要約 Mixture of Experts (MoE) アーキテクチャは、手頃な … 続きを読む →

カテゴリー: cs.AI, eess.AS | コメントを受け付けていません

Explainable Deep Learning Analysis for Raga Identification in Indian Art Music

投稿日: 2024年6月5日作成者: jarxiv

要約ラーガ識別のタスクは、音楽情報検索において非常に人気のある研究課題です。 … 続きを読む →

カテゴリー: cs.AI, eess.AS | コメントを受け付けていません

How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio?

投稿日: 2024年6月5日作成者: jarxiv

要約文章を部分的に操作すると、その意味が大きく変わってしまいます。最近の研究 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

投稿日: 2024年6月4日作成者: jarxiv

要約我々はDITTO(Diffusion Inference-Time T-O … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

SpeechVerse: A Large-scale Generalizable Audio Language Model

投稿日: 2024年6月3日作成者: jarxiv

要約大規模言語モデル (LLM) は、自然言語命令の意味的理解を必要とするタス … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

投稿日: 2024年6月3日作成者: jarxiv

要約複数の生成基盤モデル、特にさまざまなモダリティでトレーニングされたモデルを … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Iterative Feature Boosting for Explainable Speech Emotion Recognition

投稿日: 2024年6月3日作成者: jarxiv

要約音声感情認識 (SER) では、実際の重要性を考慮せずに事前定義された特徴 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS, I.2.1 | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters

Explainable Deep Learning Analysis for Raga Identification in Indian Art Music

How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio?

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

SpeechVerse: A Large-scale Generalizable Audio Language Model

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

Iterative Feature Boosting for Explainable Speech Emotion Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー