-
最近の投稿
- Human2Robot: Learning Robot Actions from Paired Human-Robot Videos
- Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving
- Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment
- MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence
- Phase-Independent Dynamic Movement Primitives With Applications to Human-Robot Co-manipulation and Time Optimal Planning
-
最近のコメント
表示できるコメントはありません。 cs.AI (34175) cs.CL (25835) cs.CR (2628) cs.CV (40083) cs.LG (39169) cs.RO (19945) cs.SY (3034) eess.IV (4770) eess.SY (3028) stat.ML (5169)
「cs.MM」カテゴリーアーカイブ
Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models
要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩では、MLLM … 続きを読む
DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis
要約 オーディオ駆動トーキング ヘッド合成は、提供されたオーディオから本物のよう … 続きを読む
On the Computation of BD-Rate over a Set of Videos for Fair Assessment of Performance of Learned Video Codecs
要約 Bjntegaard デルタ (BD) 測定は、さまざまなコーデック間のレ … 続きを読む
Learning Video Context as Interleaved Multimodal Sequences
要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む
ComAlign: Compositional Alignment in Vision-Language Models
要約 CLIP のようなビジョン言語モデル (VLM) は、下流のタスクに転送可 … 続きを読む
Improving Virtual Try-On with Garment-focused Diffusion Models
要約 拡散モデルは、数多くの画像合成タスクにおける生成モデリングに革命をもたらし … 続きを読む
Improving Text-guided Object Inpainting with Semantic Pre-inpainting
要約 近年、大規模なテキストから画像への拡散モデルの成功と、高品質の画像を生成す … 続きを読む
FlashSplat: 2D to 3D Gaussian Splatting Segmentation Solved Optimally
要約 この研究では、2D マスクから 3D ガウス スプラッティングを正確にセグ … 続きを読む
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos
要約 ビデオ入力から BGM を生成する方法を学習するためのフレームワークを紹介 … 続きを読む
FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process
要約 テキストから画像への生成モデルの出現により、後処理として実行される画像強調 … 続きを読む