-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics
要約 ディープラーニング (DL) モデルは、環境の健全性と生物多様性を診断する … 続きを読む
Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild
要約 ビデオにおける視聴覚感情認識 (ER) には、単峰性のパフォーマンスに比べ … 続きを読む
Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives
要約 私たちは、与えられた音楽に基づいて非常に長いダンス シーケンスを生成できる … 続きを読む
uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures
要約 マスクされたオートエンコーダー (MAE) は、ラベルのないデータから豊富 … 続きを読む
Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds
要約 マルチラベルの不均衡な分類は、機械学習において重大な課題を引き起こします。 … 続きを読む
More than words: Advancements and challenges in speech recognition for singing
要約 この論文では、標準の音声認識とは明らかに異なる領域である、歌うための音声認 … 続きを読む
M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment
要約 この論文では、認知負荷評価 (CLA) 用の AVCAffe データセット … 続きを読む
Non-verbal information in spontaneous speech — towards a new framework of analysis
要約 音声内の非言語信号は韻律によってエンコードされ、会話の動作から態度、感情に … 続きを読む
Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations
要約 音響単語埋め込み (AWE) は、話し言葉のベクトル表現です。 AWE を … 続きを読む
StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation
要約 拡散モデルは、音声強調に対する予測アプローチと生成アプローチの間のパフォー … 続きを読む