-
最近の投稿
- ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning
- Multimodal Object Detection using Depth and Image Data for Manufacturing Parts
- Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback
- Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning
- Bresa: Bio-inspired Reflexive Safe Reinforcement Learning for Contact-Rich Robotic Tasks
-
最近のコメント
表示できるコメントはありません。 cs.AI (35861) cs.CL (27115) cs.CR (2735) cs.CV (41715) cs.LG (40810) cs.RO (21147) cs.SY (3199) eess.IV (4903) eess.SY (3193) stat.ML (5350)
「cs.MM」カテゴリーアーカイブ
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
要約 ビデオ理解における印象的な進歩にもかかわらず、ほとんどの努力は粗いまたは視 … 続きを読む
Do image and video quality metrics model low-level human vision?
要約 SSIM、LPIPS、VMAFなどの画像およびビデオの品質メトリックは、評 … 続きを読む
VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness
要約 最近の大規模なテキストからイメージまでの拡散モデルは、フォトリアリスティッ … 続きを読む
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance
要約 最近のビデオ生成の進歩により、視覚の質と時間的一貫性の著しい改善がもたらさ … 続きを読む
Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU
要約 大規模な事前訓練モデルでの選択的な概念除去にとって、マシンの未学習方法はま … 続きを読む
ExDDV: A New Dataset for Explainable Deepfake Detection in Video
要約 生成されたビデオのリアリズムと品質が増え続けると、自動ディープフェイク検出 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
要約 要素レベルの視覚操作はデジタルコンテンツの作成に不可欠ですが、現在の拡散ベ … 続きを読む
Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages
要約 An old-school recipe for training a c … 続きを読む
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing
要約 Treemeshgptを紹介します。Treemeshgptは、入力ポイント … 続きを読む