-
最近の投稿
- CHARM: Considering Human Attributes for Reinforcement Modeling
- IKDiffuser: Fast and Diverse Inverse Kinematics Solution Generation for Multi-arm Robotic Systems
- SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure
- Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System
- A Novel ViDAR Device With Visual Inertial Encoder Odometry and Reinforcement Learning-Based Active SLAM Method
-
最近のコメント
表示できるコメントはありません。 cs.AI (39747) cs.CL (30084) cs.CV (45067) cs.HC (3038) cs.LG (44680) cs.RO (23778) cs.SY (3623) eess.IV (5162) eess.SY (3615) stat.ML (5812)
「cs.MM」カテゴリーアーカイブ
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion
要約 拡散モデルは、テキストからイメージの生成の主流のアーキテクチャとなっており … 続きを読む
TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos
要約 ビデオは、カメラ、シーン、アクション、属性など、時間の経過とともに動的な関 … 続きを読む
Creatively Upscaling Images with Global-Regional Priors
要約 現代の拡散モデルは、テキストからイメージの生成において顕著な能力を示してい … 続きを読む
Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On
要約 拡散モデルは、Virtual Try-On(VTON)タスクで予備的な成功 … 続きを読む
Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction
要約 ビデオバーチャルトライオンは、特定の衣服を備えたビデオで主題をシームレスに … 続きを読む
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning
要約 視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment
要約 視聴覚学習の最近の進歩により、モダリティ全体の学習表現における有望な結果が … 続きを読む
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
要約 視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVS … 続きを読む
Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization
要約 犬の樹皮を聞いて、駐車した車を見るためだけに音に向かって曲がると想像してく … 続きを読む
Face Consistency Benchmark for GenAI Video
要約 人工知能によって駆動されるビデオ生成は、動的で現実的なコンテンツの作成を可 … 続きを読む