-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
要約 LLaVA-Plus は、大規模なマルチモーダル モデルの機能を拡張する汎 … 続きを読む
Control3D: Towards Controllable Text-to-3D Generation
要約 大規模なテキストから画像への拡散モデルにおける最近の目覚ましい進歩により、 … 続きを読む
ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors
要約 最近、マルチメディア コミュニティは、特にテキストから画像への生成の分野で … 続きを読む
3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models
要約 テキスト駆動のスタイル化による 3D コンテンツの作成は、マルチメディアお … 続きを読む
What Do I Hear? Generating Sounds for Visuals with ChatGPT
要約 この短いペーパーでは、ビジュアル メディアのリアルなサウンドスケープを生成 … 続きを読む
Rethinking Human Pose Estimation for Autonomous Driving with 3D Event Representations
要約 人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む
Rethinking Event-based Human Pose Estimation with 3D Event Representations
要約 人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction
要約 感情認識は人間の会話を理解するために重要なタスクです。 言語、音声、表情な … 続きを読む
MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む