-
最近の投稿
- Human2Robot: Learning Robot Actions from Paired Human-Robot Videos
- Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving
- Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment
- MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence
- Phase-Independent Dynamic Movement Primitives With Applications to Human-Robot Co-manipulation and Time Optimal Planning
-
最近のコメント
表示できるコメントはありません。 cs.AI (34175) cs.CL (25835) cs.CR (2628) cs.CV (40083) cs.LG (39169) cs.RO (19945) cs.SY (3034) eess.IV (4770) eess.SY (3028) stat.ML (5169)
「cs.MM」カテゴリーアーカイブ
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion
要約 キャラクターを認識し、会話の話者を予測することは、音声生成や翻訳などのコミ … 続きを読む
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model
要約 このペーパーでは、マルチイメージ推論におけるマルチモーダル大規模言語モデル … 続きを読む
DreamCinema: Cinematic Transfer with Free Camera and 3D Character
要約 私たちはデジタル メディアの隆盛の時代に生きており、誰もが個人の映画製作者 … 続きを読む
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
要約 ビジュアルストーリーテリングでは、文字とシーンの一貫性を維持しながら、テキ … 続きを読む
Self-supervised Photographic Image Layout Representation Learning
要約 画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation
要約 従来のアニメーション生成方法は、人間がラベル付けしたデータを使用した生成モ … 続きを読む
A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection
要約 この論文では、堅牢なオーディオビジュアルディープフェイク検出モデルを開発す … 続きを読む
Perceptual Depth Quality Assessment of Stereoscopic Omnidirectional Images
要約 奥行き知覚は、没入型仮想現実 (VR) 視覚環境の視聴者エクスペリエンスに … 続きを読む