-
最近の投稿
- 3D Water Quality Mapping using Invariant Extended Kalman Filtering for Underwater Robot Localization
- Hybrid Visual Servoing of Tendon-driven Continuum Robots
- Embodying Control in Soft Multistable Grippers from morphofunctional co-design
- View-Invariant Policy Learning via Zero-Shot Novel View Synthesis
- ModSkill: Physical Character Skill Modularization
-
最近のコメント
表示できるコメントはありません。 cs.AI (34028) cs.CL (25726) cs.CR (2616) cs.CV (39965) cs.LG (39031) cs.RO (19850) cs.SY (3019) eess.IV (4757) eess.SY (3013) stat.ML (5150)
「cs.SD」カテゴリーアーカイブ
WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models
要約 検索拡張生成(RAG)は、大規模な言語モデル(LLM)に外部知識を統合でき … 続きを読む
Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives
要約 視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊 … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation
要約 テキストからソングの世代、テキスト入力からボーカルと伴奏を作成するタスクは … 続きを読む
SpeechT: Findings of the First Mentorship in Speech Translation
要約 この作品は、2024年12月と2025年1月に開催されたスピーチ翻訳の最初 … 続きを読む
Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning
要約 最近、マスクされた潜在的な予測に基づく自己教師の学習方法は、入力データを強 … 続きを読む
DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors
要約 大規模な潜在的拡散モデル(LDMS)は、さまざまなモダリティのコンテンツ生 … 続きを読む
ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition
要約 コード認識は、音楽分析におけるコードの抽象的で記述的な性質のため、音楽情報 … 続きを読む
Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives
要約 視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊 … 続きを読む