-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing
要約 オーディオビジュアルビデオの解析は、弱いラベルを使用してセグメントレベルで … 続きを読む
Layout Sequence Prediction From Noisy Mobile Modality
要約 軌道予測は、自動運転やロボット工学などの用途で歩行者の動きを理解する上で重 … 続きを読む
UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
要約 マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上してお … 続きを読む
Language Model Beats Diffusion — Tokenizer is Key to Visual Generation
要約 大規模言語モデル (LLM) は、言語の生成タスクでは主要なモデルですが、 … 続きを読む
Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis
要約 マルチモーダル感情分析 (MSA) は、複数のソース (言語、ビデオ、音声 … 続きを読む
RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing
要約 モンテカルロ パス トレースは、リアルな画像合成のための強力な技術ですが、 … 続きを読む
Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization
要約 ベクトル量子化 (VQ) は、有益な離散潜在表現を抽出するためのディープ … 続きを読む
A Large-scale Dataset for Audio-Language Representation Learning
要約 AIコミュニティは、大規模なマルチモーダルデータセットに後押しされ、強力な … 続きを読む
Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging
要約 生成 AI の分野における最近の進歩を活用した、マルチモーダルな非定常コン … 続きを読む