-
最近の投稿
- Online Adaptation of Terrain-Aware Dynamics for Planning in Unstructured Environments
- ‘Don’t Do That!’: Guiding Embodied Systems through Large Language Model-based Constraint Generation
- SGN-CIRL: Scene Graph-based Navigation with Curriculum, Imitation, and Reinforcement Learning
- Olfactory Inertial Odometry: Sensor Calibration and Drift Compensation
- Chronoamperometry with Room-Temperature Ionic Liquids: Sub-Second Inference Techniques
-
最近のコメント
表示できるコメントはありません。 cs.AI (39257) cs.CL (29715) cs.CV (44646) cs.HC (2989) cs.LG (44171) cs.RO (23444) cs.SY (3577) eess.IV (5131) eess.SY (3569) stat.ML (5743)
「cs.CV」カテゴリーアーカイブ
ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation
要約 ニューラルレンダリングは、3D再構成と新規ビューの合成に大きな進歩を遂げま … 続きを読む
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs
要約 2Dビジョン言語モデル(VLMS)の顕著な進歩は、3D質問応答、密度の高い … 続きを読む
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting
要約 深さマップは、フィードフォワード3Dガウススプラッティング(3DG)パイプ … 続きを読む
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
要約 ビデオの理解の進歩にもかかわらず、現在のMLLMはタスクのカウントに苦労し … 続きを読む
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
要約 Chain-of-Thought(COT)は、大規模な言語モデル(LLM) … 続きを読む
Unleashing Hour-Scale Video Training for Long Video-Language Understanding
要約 最近の長い形式のビデオ言語理解ベンチマークは、ビデオの大規模なマルチモーダ … 続きを読む
VideoMolmo: Spatio-Temporal Grounding Meets Pointing
要約 時空間局在は、生物学的研究から自律的なナビゲーションやインタラクティブなイ … 続きを読む
Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh
要約 テクスチャメッシュと対応するマルチビューパノラマ画像として表される屋内スペ … 続きを読む
Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning
要約 具体化されたAIおよびデジタルコンテンツの作成には、現実的な3D屋内シーン … 続きを読む
Refer to Anything with Vision-Language Prompts
要約 最近の画像セグメンテーションモデルは、画像を視覚エンティティの高品質のマス … 続きを読む