-
最近の投稿
- Open Challenges in the Formal Verification of Autonomous Driving
- Maximum Solar Energy Tracking Leverage High-DoF Robotics System with Deep Reinforcement Learning
- EdgeFlowNet: 100FPS@1W Dense Optical Flow For Tiny Mobile Robots
- A Systematic Study of Multi-Agent Deep Reinforcement Learning for Safe and Robust Autonomous Highway Ramp Entry
- Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning
-
最近のコメント
表示できるコメントはありません。 cs.AI (30057) cs.CL (22703) cs.CR (2332) cs.CV (36430) cs.LG (34881) cs.RO (17454) cs.SY (2679) eess.IV (4437) eess.SY (2673) stat.ML (4648)
「cs.MM」カテゴリーアーカイブ
Vista3D: Unravel the 3D Darkside of a Single Image
要約 私たちは、目に見える部分を垣間見るだけで、オブジェクトの隠された次元を明ら … 続きを読む
NVLM: Open Frontier-Class Multimodal LLMs
要約 NVLM 1.0 は、視覚言語タスクで最先端の結果を達成するフロンティアク … 続きを読む
Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models
要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩では、MLLM … 続きを読む
DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis
要約 オーディオ駆動トーキング ヘッド合成は、提供されたオーディオから本物のよう … 続きを読む
On the Computation of BD-Rate over a Set of Videos for Fair Assessment of Performance of Learned Video Codecs
要約 Bjntegaard デルタ (BD) 測定は、さまざまなコーデック間のレ … 続きを読む
Learning Video Context as Interleaved Multimodal Sequences
要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む
ComAlign: Compositional Alignment in Vision-Language Models
要約 CLIP のようなビジョン言語モデル (VLM) は、下流のタスクに転送可 … 続きを読む
Improving Virtual Try-On with Garment-focused Diffusion Models
要約 拡散モデルは、数多くの画像合成タスクにおける生成モデリングに革命をもたらし … 続きを読む
Improving Text-guided Object Inpainting with Semantic Pre-inpainting
要約 近年、大規模なテキストから画像への拡散モデルの成功と、高品質の画像を生成す … 続きを読む