cs.CV」カテゴリーアーカイブ

ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation

要約 ニューラルレンダリングは、3D再構成と新規ビューの合成に大きな進歩を遂げま … 続きを読む

カテゴリー: cs.CV | コメントする

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs

要約 2Dビジョン言語モデル(VLMS)の顕著な進歩は、3D質問応答、密度の高い … 続きを読む

カテゴリー: cs.CV | コメントする

Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

要約 深さマップは、フィードフォワード3Dガウススプラッティング(3DG)パイプ … 続きを読む

カテゴリー: cs.CV | コメントする

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

要約 ビデオの理解の進歩にもかかわらず、現在のMLLMはタスクのカウントに苦労し … 続きを読む

カテゴリー: cs.CV | コメントする

MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

要約 Chain-of-Thought(COT)は、大規模な言語モデル(LLM) … 続きを読む

カテゴリー: cs.CV | コメントする

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

要約 最近の長い形式のビデオ言語理解ベンチマークは、ビデオの大規模なマルチモーダ … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

VideoMolmo: Spatio-Temporal Grounding Meets Pointing

要約 時空間局在は、生物学的研究から自律的なナビゲーションやインタラクティブなイ … 続きを読む

カテゴリー: cs.CV | コメントする

Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh

要約 テクスチャメッシュと対応するマルチビューパノラマ画像として表される屋内スペ … 続きを読む

カテゴリー: cs.CV | コメントする

Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning

要約 具体化されたAIおよびデジタルコンテンツの作成には、現実的な3D屋内シーン … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Refer to Anything with Vision-Language Prompts

要約 最近の画像セグメンテーションモデルは、画像を視覚エンティティの高品質のマス … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする