- 
最近の投稿- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
 
- 
最近のコメント表示できるコメントはありません。
- cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830) 
「cs.MM」カテゴリーアーカイブ
MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling
要約 ビデオと言語の理解は、ビデオ質問応答、テキスト-ビデオ検索、マルチラベル分 … 続きを読む
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE
要約 多様なマルチモーダルデータから学習するスケーラブルな視覚言語モデルの構築は … 続きを読む
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
要約 最近の研究により、音声駆動型話し顔生成は大きく進歩したが、生成された映像の … 続きを読む
A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation
要約 産業用異常検出 (AD) の課題に効果的に対処するには、欠陥のあるサンプル … 続きを読む
Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions
要約 自然言語でルートを伝達する場合、{\em 獲得された空間知識} の概念 … 続きを読む
Gradient-Guided Modality Decoupling for Missing-Modality Robustness
要約 不完全な入力データ (モダリティの欠落) を使用したマルチモーダル学習は実 … 続きを読む
SPC-NeRF: Spatial Predictive Compression for Voxel Based Radiance Field
要約 Neural Radiance Field (NeRF) を明示的なボクセ … 続きを読む
Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding
要約 Large Vision-Language Model (LVLM) は物 … 続きを読む
A multimodal dynamical variational autoencoder for audiovisual speech representation learning
要約 この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 … 続きを読む
