-
最近の投稿
- Learning to Recover: Dynamic Reward Shaping with Wheel-Leg Coordination for Fallen Robots
- An Integrated Visual Servoing Framework for Precise Robotic Pruning Operations in Modern Commercial Orchard
- Adaptive Locomotion on Mud through Proprioceptive Sensing of Substrate Properties
- TD-TOG Dataset: Benchmarking Zero-Shot and One-Shot Task-Oriented Grasping for Object Generalization
- Hierarchical Intention-Aware Expressive Motion Generation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (39326) cs.CL (29768) cs.CV (44705) cs.HC (2997) cs.LG (44251) cs.RO (23494) cs.SY (3583) eess.IV (5135) eess.SY (3575) stat.ML (5752)
「eess.AS」カテゴリーアーカイブ
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures
要約 この論文では、音楽のSTEMの回復のタスクに取り組みます。 ミュージカルミ … 続きを読む
Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation
要約 言語の多様性は、自動音声認識や翻訳など、音声からテキスト(S2T)タスクに … 続きを読む
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors
要約 Vibravoxは、5つの異なる体伝導オーディオセンサーを使用したオーディ … 続きを読む
Reverb: Open-Source ASR and Diarization from Rev
要約 今日、私たちは非営利的な使用のためのコア音声認識とダイアリ化化モデルをオー … 続きを読む
Everyday Speech in the Indian Subcontinent
要約 インドには1369の言語があり、そのうち22は公式です。 これらの言語を表 … 続きを読む
KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation
要約 生成されたオーディオ信号の評価に広く採用されていますが、FR \ R … 続きを読む
WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models
要約 検索拡張生成(RAG)は、大規模な言語モデル(LLM)に外部知識を統合でき … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors
要約 大規模な潜在的拡散モデル(LDMS)は、さまざまなモダリティのコンテンツ生 … 続きを読む