-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model
要約 ほとんどのゼロショット マルチスピーカー TTS (ZS-TTS) システ … 続きを読む
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations
要約 音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む
Harder or Different? Understanding Generalization of Audio Deepfake Detection
要約 最近の研究では、音声ディープフェイク検出における重要な問題が明らかになりま … 続きを読む
MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers
要約 事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む
Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability
要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む
RECAP: Retrieval-Augmented Audio Captioning
要約 RECAP (REtrieval-Augmented Audio CAPt … 続きを読む
Proactive Detection of Voice Cloning with Localized Watermarking
要約 急速に進化する音声生成モデルの分野では、音声複製のリスクに対して音声の信頼 … 続きを読む
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling
要約 この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。 まず、 … 続きを読む
HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids
要約 この文書では、補聴器ユーザー向けに調整された音楽音質評価のための非侵入型デ … 続きを読む
The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement
要約 改善された音声強調モデルを取得するために、研究者は多くの場合、特定の計測基 … 続きを読む