-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures
要約 マスクされたオートエンコーダー (MAE) は、ラベルのないデータから豊富 … 続きを読む
Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds
要約 マルチラベルの不均衡な分類は、機械学習において重大な課題を引き起こします。 … 続きを読む
More than words: Advancements and challenges in speech recognition for singing
要約 この論文では、標準の音声認識とは明らかに異なる領域である、歌うための音声認 … 続きを読む
M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment
要約 この論文では、認知負荷評価 (CLA) 用の AVCAffe データセット … 続きを読む
Non-verbal information in spontaneous speech — towards a new framework of analysis
要約 音声内の非言語信号は韻律によってエンコードされ、会話の動作から態度、感情に … 続きを読む
Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations
要約 音響単語埋め込み (AWE) は、話し言葉のベクトル表現です。 AWE を … 続きを読む
StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation
要約 拡散モデルは、音声強調に対する予測アプローチと生成アプローチの間のパフォー … 続きを読む
Boosting keyword spotting through on-device learnable user speech characteristics
要約 常時稼働の TinyML 制約のあるアプリケーション用のキーワード スポッ … 続きを読む
An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data
要約 音響-調音反転 (AAI) は、音声を超音波舌画像 (UTI) データなど … 続きを読む
Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts
要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む