-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model
要約 ほとんどのゼロショット マルチスピーカー TTS (ZS-TTS) システ … 続きを読む
LLM-based speaker diarization correction: A generalizable approach
要約 話者ダイアライゼーションは、自動音声認識 (ASR) ツールを使用して書き … 続きを読む
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations
要約 音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む
Harder or Different? Understanding Generalization of Audio Deepfake Detection
要約 最近の研究では、音声ディープフェイク検出における重要な問題が明らかになりま … 続きを読む
MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers
要約 事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む
Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability
要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む
Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition
要約 機械学習の進歩により、自動音声認識 (ASR) などのさまざまなテキストお … 続きを読む
RECAP: Retrieval-Augmented Audio Captioning
要約 RECAP (REtrieval-Augmented Audio CAPt … 続きを読む
Robots Have Been Seen and Not Heard: Effects of Consequential Sounds on Human-Perception of Robots
要約 多くの人は、ロボットがかなり静かに動くこと、あるいはロボットのビデオで見た … 続きを読む
HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids
要約 この文書では、補聴器ユーザー向けに調整された音楽音質評価のための非侵入型デ … 続きを読む