「cs.SD」カテゴリーアーカイブ

An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition

投稿日: 2024年9月11日作成者: jarxiv

要約エンドツーエンド (E2E) 自動音声認識 (ASR) モデルは、さまざま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MuPT: A Generative Symbolic Music Pretrained Transformer

投稿日: 2024年9月11日作成者: jarxiv

要約この論文では、音楽の事前トレーニングへの大規模言語モデル (LLM) の適 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Sine, Transient, Noise Neural Modeling of Piano Notes

投稿日: 2024年9月11日作成者: jarxiv

要約この論文では、ピアノサウンドをエミュレートするための新しい方法を紹介します … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

SPMamba: State-space model is all you need in speech separation

投稿日: 2024年9月11日作成者: jarxiv

要約既存の CNN ベースの音声分離モデルは、局所的な受容野の制限に直面してお … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

投稿日: 2024年9月11日作成者: jarxiv

要約大規模言語モデル (LLM) の急速な進歩により、自然言語処理機能が大幅に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

投稿日: 2024年9月11日作成者: jarxiv

要約 GPT-4o のようなモデルは、音声による大規模言語モデル (LLM) と … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Benchmarking Sub-Genre Classification For Mainstage Dance Music

投稿日: 2024年9月11日作成者: jarxiv

要約音楽の分類は、幅広い用途に対応しており、音楽情報の検索において最も重要なタ … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, I.2.1 | コメントを受け付けていません

IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS

投稿日: 2024年9月10日作成者: jarxiv

要約 Text-to-Speech (TTS) 合成の最近の進歩により、広範な … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.SP | コメントを受け付けていません

Harmonic Reasoning in Large Language Models

投稿日: 2024年9月10日作成者: jarxiv

要約大規模言語モデル (LLM) は非常に人気があり、芸術における創造的なタス … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD | コメントを受け付けていません

PDAF: A Phonetic Debiasing Attention Framework For Speaker Verification

投稿日: 2024年9月10日作成者: jarxiv

要約話者認証システムは、音声による身元認証に不可欠です。従来、これらのシステ … 続きを読む →

カテゴリー: cs.CL, cs.SD | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition

MuPT: A Generative Symbolic Music Pretrained Transformer

Sine, Transient, Noise Neural Modeling of Piano Notes

SPMamba: State-space model is all you need in speech separation

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

Benchmarking Sub-Genre Classification For Mainstage Dance Music

IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS

Harmonic Reasoning in Large Language Models

PDAF: A Phonetic Debiasing Attention Framework For Speaker Verification

最近の投稿

最近のコメント

アーカイブ

カテゴリー