投稿者「jarxiv」のアーカイブ

VideoMolmo: Spatio-Temporal Grounding Meets Pointing

要約 時空間局在は、生物学的研究から自律的なナビゲーションやインタラクティブなイ … 続きを読む

カテゴリー: cs.CV | VideoMolmo: Spatio-Temporal Grounding Meets Pointing はコメントを受け付けていません

Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh

要約 テクスチャメッシュと対応するマルチビューパノラマ画像として表される屋内スペ … 続きを読む

カテゴリー: cs.CV | Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh はコメントを受け付けていません

Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning

要約 具体化されたAIおよびデジタルコンテンツの作成には、現実的な3D屋内シーン … 続きを読む

カテゴリー: cs.AI, cs.CV | Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning はコメントを受け付けていません

Refer to Anything with Vision-Language Prompts

要約 最近の画像セグメンテーションモデルは、画像を視覚エンティティの高品質のマス … 続きを読む

カテゴリー: cs.AI, cs.CV | Refer to Anything with Vision-Language Prompts はコメントを受け付けていません

ContentV: Efficient Training of Video Generation Models with Limited Compute

要約 ビデオ生成の最近の進歩は、計算コストのエスカレートを緩和するためにますます … 続きを読む

カテゴリー: cs.CV | ContentV: Efficient Training of Video Generation Models with Limited Compute はコメントを受け付けていません

Neural Inverse Rendering from Propagating Light

要約 伝播光のマルチビューポイントビデオから物理的に基づいた神経逆レンダリングの … 続きを読む

カテゴリー: cs.CV | Neural Inverse Rendering from Propagating Light はコメントを受け付けていません

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

要約 マルチモーダル大手言語モデル(MLLM)は、視覚機能を備えた事前に訓練され … 続きを読む

カテゴリー: cs.CV | SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs はコメントを受け付けていません

FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction

要約 このペーパーでは、複雑な動きで動的な3Dシーンを再構築するという課題に取り … 続きを読む

カテゴリー: cs.CV | FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction はコメントを受け付けていません

Contrastive Flow Matching

要約 無条件のフローマッチング列車拡散モデルは、サンプルペア間のフローが一意であ … 続きを読む

カテゴリー: cs.CV | Contrastive Flow Matching はコメントを受け付けていません

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

要約 現実世界のビデオ設定での数学的推論は、静的な画像やテキストよりも根本的に異 … 続きを読む

カテゴリー: cs.CV | VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos はコメントを受け付けていません