cs.SD」カテゴリーアーカイブ

Resampling Filter Design for Multirate Neural Audio Effect Processing

要約 ニューラルネットワークは、特にギターアンプと歪みペダルのオーディオエフェク … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Resampling Filter Design for Multirate Neural Audio Effect Processing はコメントを受け付けていません

Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling

要約 自己学習学習(SSL)の最近の開発は、スピーカー検証(SV)の重要な可能性 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling はコメントを受け付けていません

acoupi: An Open-Source Python Framework for Deploying Bioacoustic AI Models on Edge Devices

要約 1.人工知能(AI)と組み合わせたパッシブ音響モニタリング(PAM)は、生 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, H.5.5 | acoupi: An Open-Source Python Framework for Deploying Bioacoustic AI Models on Edge Devices はコメントを受け付けていません

Fast Word Error Rate Estimation Using Self-Supervised Representations for Speech and Text

要約 単語エラー率(WER)推定は、グラウンドトゥルースラベルを必要とせずに自動 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Fast Word Error Rate Estimation Using Self-Supervised Representations for Speech and Text はコメントを受け付けていません

Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition

要約 特に低リソース言語では、多言語性能を高める自動音声認識(ASR)のデコード … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition はコメントを受け付けていません

LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging

要約 トランスフォーマーは、オーディオ処理タスクに新しいベンチマークを設定し、オ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging はコメントを受け付けていません

VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching

要約 最近の音声変換(VC)システムでの顕著な進歩にもかかわらず、ゼロショットシ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching はコメントを受け付けていません

Yin-Yang: Developing Motifs With Long-Term Structure And Controllability

要約 トランスモデルは、象徴的に表現された音楽を生成して、地元の一貫性を備えた大 … 続きを読む

カテゴリー: cs.AI, cs.SC, cs.SD | Yin-Yang: Developing Motifs With Long-Term Structure And Controllability はコメントを受け付けていません

MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition

要約 コンピューター支援の音楽構成ワークフロー向けに設計された変圧器アーキテクチ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition はコメントを受け付けていません

Whispers of Sound-Enhancing Information Extraction from Depression Patients’ Unstructured Data through Audio and Text Emotion Recognition and Llama Fine-tuning

要約 この研究では、うつ病の分類の精度を高めるために、教師と学生のアーキテクチャ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Whispers of Sound-Enhancing Information Extraction from Depression Patients’ Unstructured Data through Audio and Text Emotion Recognition and Llama Fine-tuning はコメントを受け付けていません