eess.AS」カテゴリーアーカイブ

MuPT: A Generative Symbolic Music Pretrained Transformer

要約 この論文では、音楽の事前トレーニングへの大規模言語モデル (LLM) の適 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | MuPT: A Generative Symbolic Music Pretrained Transformer はコメントを受け付けていません

Sine, Transient, Noise Neural Modeling of Piano Notes

要約 この論文では、ピアノサウンドをエミュレートするための新しい方法を紹介します … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Sine, Transient, Noise Neural Modeling of Piano Notes はコメントを受け付けていません

SPMamba: State-space model is all you need in speech separation

要約 既存の CNN ベースの音声分離モデルは、局所的な受容野の制限に直面してお … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | SPMamba: State-space model is all you need in speech separation はコメントを受け付けていません

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

要約 大規模言語モデル (LLM) の急速な進歩により、自然言語処理機能が大幅に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders はコメントを受け付けていません

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

要約 GPT-4o のようなモデルは、音声による大規模言語モデル (LLM) と … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | LLaMA-Omni: Seamless Speech Interaction with Large Language Models はコメントを受け付けていません

YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection

要約 流暢でない音声検出は、無秩序な音声分析や音声言語学習のボトルネックとなりま … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection はコメントを受け付けていません

Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation

要約 この論文では、音声認識および翻訳タスク用のシーケンス間モデルをトレーニング … 続きを読む

カテゴリー: cs.CL, eess.AS | Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation はコメントを受け付けていません

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review

要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review はコメントを受け付けていません

Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization

要約 音声技術の進歩により、音声を通じて個人を特定できる情報に前例のないアクセス … 続きを読む

カテゴリー: cs.LG, eess.AS | Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization はコメントを受け付けていません