-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Hierarchical Generative Modeling of Melodic Vocal Contours in Hindustani Classical Music
要約 ヒンドゥスターニ音楽は、豊かな旋律パターンの演奏を示す、演奏主導の口承伝統 … 続きを読む
Beyond Silence: Bias Analysis through Loss and Asymmetric Approach in Audio Anti-Spoofing
要約 オーディオのスプーフィング検出研究の現在の傾向は、さまざまなスプーフィング … 続きを読む
Foundation Models for Music: A Survey
要約 近年、大規模言語モデル (LLM) や潜在拡散モデル (LDM) などの基 … 続きを読む
On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning
要約 オーディオとテキストのクロスモーダル対比学習の最近の進歩により、ゼロショッ … 続きを読む
EAViT: External Attention Vision Transformer for Audio Classification
要約 この文書では、オーディオ分類の精度を高めるために設計された新しいアプローチ … 続きを読む
mHuBERT-147: A Compact Multilingual HuBERT Model
要約 我々は、90,000 時間のクリーンなオープンライセンス データでトレーニ … 続きを読む
Which Prosodic Features Matter Most for Pragmatics?
要約 私たちは、韻律機能を伝える際にどの韻律特徴が最も重要であるかを調査します。 … 続きを読む
Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language
要約 音声クローン作成は、パーソナライズされた音声インターフェイスの顕著な機能で … 続きを読む
Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement
要約 このペーパーでは、リソースに制約のあるハードウェア プラットフォーム上で実 … 続きを読む
Self-Learning for Personalized Keyword Spotting on Ultra-Low-Power Audio Sensors
要約 この論文では、超低電力スマート オーディオ センサーへの展開後に、パーソナ … 続きを読む