-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Enhancing Speech Articulation Analysis using a Geometric Transformation of the X-ray Microbeam Dataset
要約 音声分析には、音声の明瞭度を正確に分析することが不可欠です。 ただし、調音 … 続きを読む
A Large-scale Dataset for Audio-Language Representation Learning
要約 AI コミュニティは、大規模なマルチモーダル データセットを活用した強力な … 続きを読む
Audio-Visual Speaker Verification via Joint Cross-Attention
要約 話者検証は音声信号を使用して広く検討されており、ディープ モデルを使用する … 続きを読む
Joint Prediction and Denoising for Large-scale Multilingual Self-supervised Learning
要約 多言語自己教師あり学習 (SSL) は、多くの言語を処理するために必要な費 … 続きを読む
Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music Transcription
要約 近年、音楽転写に関する研究は、主にアーキテクチャ設計と楽器固有のデータ取得 … 続きを読む
Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition
要約 音声認識出力スコアリングのための低ランク適応 (LoRA) に基づく神経言 … 続きを読む
joint prediction and denoising for large-scale multilingual self-supervised learning
要約 多言語自己教師あり学習 (SSL) は、多くの言語を処理するために必要な費 … 続きを読む
Seeing and hearing what has not been said; A multimodal client behavior classifier in Motivational Interviewing with interpretable fusion
要約 動機づけ面接 (MI) は、コラボレーションを重視し、行動の変化を促す治療 … 続きを読む
Learning Speech Representation From Contrastive Token-Acoustic Pretraining
要約 最小教師あり音声合成 (TTS)、音声変換 (VC)、自動音声認識 (AS … 続きを読む
Late Audio-Visual Fusion for In-The-Wild Speaker Diarization
要約 話者ダイアライゼーションは、制約された音声についてはよく研究されていますが … 続きを読む