-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Sine, Transient, Noise Neural Modeling of Piano Notes
要約 この論文では、ピアノサウンドをエミュレートするための新しい方法を紹介します … 続きを読む
SPMamba: State-space model is all you need in speech separation
要約 既存の CNN ベースの音声分離モデルは、局所的な受容野の制限に直面してお … 続きを読む
MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders
要約 大規模言語モデル (LLM) の急速な進歩により、自然言語処理機能が大幅に … 続きを読む
LLaMA-Omni: Seamless Speech Interaction with Large Language Models
要約 GPT-4o のようなモデルは、音声による大規模言語モデル (LLM) と … 続きを読む
YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection
要約 流暢でない音声検出は、無秩序な音声分析や音声言語学習のボトルネックとなりま … 続きを読む
Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation
要約 この論文では、音声認識および翻訳タスク用のシーケンス間モデルをトレーニング … 続きを読む
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning
要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む
Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review
要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む
Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization
要約 音声技術の進歩により、音声を通じて個人を特定できる情報に前例のないアクセス … 続きを読む
Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model
要約 異なる言語間の音声の類似性をモデル化することは本質的に難しいため、コードス … 続きを読む