eess.AS」カテゴリーアーカイブ

A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition

要約 水中音響ターゲット認識(UATR)は、海洋の多様性と国防の安全を保護するた … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition はコメントを受け付けていません

SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

要約 Sift(音声指導の微調整)、音声テキスト大規模言語モデル(LLM)の指示 … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning はコメントを受け付けていません

Dysarthria Normalization via Local Lie Group Transformations for Robust ASR

要約 スペクトログラムのローカルリーグループ変換を使用して、ダイサルトリック音声 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Dysarthria Normalization via Local Lie Group Transformations for Robust ASR はコメントを受け付けていません

Taming Data and Transformers for Audio Generation

要約 アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Audio Generation はコメントを受け付けていません

Respiratory Inhaler Sound Event Classification Using Self-Supervised Learning

要約 喘息は、世界中の何百万人もの人々に影響を与える慢性呼吸条件です。 この状態 … 続きを読む

カテゴリー: cs.AI, cs.LG, eess.AS | Respiratory Inhaler Sound Event Classification Using Self-Supervised Learning はコメントを受け付けていません

SpoofCeleb: Speech Deepfake Detection and SASV In The Wild

要約 このペーパーでは、音声ディープファーク検出(SDD)およびスプーフィングの … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | SpoofCeleb: Speech Deepfake Detection and SASV In The Wild はコメントを受け付けていません

Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis

要約 最近のゼロショットテキスト(TTS)システムは一般的なジレンマに直面してい … 続きを読む

カテゴリー: cs.CL, eess.AS | Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis はコメントを受け付けていません

Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation

要約 テキストツースピーチ(TTS)モデルは、音素を波形に変換することにより、複 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation はコメントを受け付けていません

On The Landscape of Spoken Language Models: A Comprehensive Survey

要約 音声言語処理の分野は、普遍的な音声処理システムとして機能するカスタム構築の … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | On The Landscape of Spoken Language Models: A Comprehensive Survey はコメントを受け付けていません

Towards Unified Music Emotion Recognition across Dimensional and Categorical Models

要約 音楽感情認識(MER)における最も重要な課題の1つは、感情ラベルがカテゴリ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Towards Unified Music Emotion Recognition across Dimensional and Categorical Models はコメントを受け付けていません