-
最近の投稿
- Nearest-Neighbourless Asymptotically Optimal Motion Planning with Fully Connected Informed Trees (FCIT*)
- Performance assessment of ADAS in a representative subset of critical traffic situations
- Exciting Contact Modes in Differentiable Simulations for Robot Learning
- Can LLMs plan paths in the real world?
- DECODE: Domain-aware Continual Domain Expansion for Motion Prediction
-
最近のコメント
表示できるコメントはありません。 cs.AI (30257) cs.CL (22857) cs.CR (2346) cs.CV (36632) cs.LG (35077) cs.RO (17603) cs.SY (2704) eess.IV (4458) eess.SY (2698) stat.ML (4675)
「cs.MM」カテゴリーアーカイブ
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE
要約 多様なマルチモーダルデータから学習するスケーラブルな視覚言語モデルの構築は … 続きを読む
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
要約 最近の研究により、音声駆動型話し顔生成は大きく進歩したが、生成された映像の … 続きを読む
A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation
要約 産業用異常検出 (AD) の課題に効果的に対処するには、欠陥のあるサンプル … 続きを読む
Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions
要約 自然言語でルートを伝達する場合、{\em 獲得された空間知識} の概念 … 続きを読む
Gradient-Guided Modality Decoupling for Missing-Modality Robustness
要約 不完全な入力データ (モダリティの欠落) を使用したマルチモーダル学習は実 … 続きを読む
SPC-NeRF: Spatial Predictive Compression for Voxel Based Radiance Field
要約 Neural Radiance Field (NeRF) を明示的なボクセ … 続きを読む
Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding
要約 Large Vision-Language Model (LVLM) は物 … 続きを読む
A multimodal dynamical variational autoencoder for audiovisual speech representation learning
要約 この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 … 続きを読む
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む