-
最近の投稿
- Learning Transferable Friction Models and LuGre Identification via Physics Informed Neural Networks
- Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets
- Robust Visual Servoing under Human Supervision for Assembly Tasks
- Practical Insights on Grasp Strategies for Mobile Manipulation in the Wild
- UniPhys: Unified Planner and Controller with Diffusion for Flexible Physics-Based Character Control
-
最近のコメント
表示できるコメントはありません。 cs.AI (36765) cs.CL (27832) cs.CV (42568) cs.HC (2808) cs.LG (41724) cs.RO (21762) cs.SY (3312) eess.IV (4970) eess.SY (3304) stat.ML (5460)
「cs.MM」カテゴリーアーカイブ
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
要約 ドメイン固有の定理を理解するには、多くの場合、単なるテキストベースの推論以 … 続きを読む
Language-Guided Diffusion Model for Visual Grounding
要約 視覚的に接地(VG)タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
要約 視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら … 続きを読む
LightThinker: Thinking Step-by-Step Compression
要約 大規模な言語モデル(LLM)は、複雑な推論タスクで顕著なパフォーマンスを示 … 続きを読む
Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation
要約 人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を … 続きを読む
Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation
要約 既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、 … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
Multi-scale Attention Guided Pose Transfer
要約 ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えな … 続きを読む
TIPS: Text-Induced Pose Synthesis
要約 コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可 … 続きを読む
Scene Aware Person Image Generation through Global Contextual Conditioning
要約 人のイメージ生成は、興味をそそるが挑戦的な問題です。 ただし、制約された状 … 続きを読む