「eess.AS」カテゴリーアーカイブ

Sine, Transient, Noise Neural Modeling of Piano Notes

投稿日: 2024年9月11日作成者: jarxiv

要約この論文では、ピアノサウンドをエミュレートするための新しい方法を紹介します … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

SPMamba: State-space model is all you need in speech separation

投稿日: 2024年9月11日作成者: jarxiv

要約既存の CNN ベースの音声分離モデルは、局所的な受容野の制限に直面してお … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

投稿日: 2024年9月11日作成者: jarxiv

要約大規模言語モデル (LLM) の急速な進歩により、自然言語処理機能が大幅に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

投稿日: 2024年9月11日作成者: jarxiv

要約 GPT-4o のようなモデルは、音声による大規模言語モデル (LLM) と … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection

投稿日: 2024年9月10日作成者: jarxiv

要約流暢でない音声検出は、無秩序な音声分析や音声言語学習のボトルネックとなりま … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS | コメントを受け付けていません

Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation

投稿日: 2024年9月10日作成者: jarxiv

要約この論文では、音声認識および翻訳タスク用のシーケンス間モデルをトレーニング … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

投稿日: 2024年9月10日作成者: jarxiv

要約最近、AI コミュニティは、大規模なマルチモーダルデータセットを活用した … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review

投稿日: 2024年9月9日作成者: jarxiv

要約パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization

投稿日: 2024年9月6日作成者: jarxiv

要約音声技術の進歩により、音声を通じて個人を特定できる情報に前例のないアクセス … 続きを読む →

カテゴリー: cs.LG, eess.AS | コメントを受け付けていません

Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model

投稿日: 2024年9月6日作成者: jarxiv

要約異なる言語間の音声の類似性をモデル化することは本質的に難しいため、コードス … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Sine, Transient, Noise Neural Modeling of Piano Notes

SPMamba: State-space model is all you need in speech separation

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection

Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review

Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization

Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー