cs.CV」カテゴリーアーカイブ

ContentV: Efficient Training of Video Generation Models with Limited Compute

要約 ビデオ生成の最近の進歩は、計算コストのエスカレートを緩和するためにますます … 続きを読む

カテゴリー: cs.CV | コメントする

Neural Inverse Rendering from Propagating Light

要約 伝播光のマルチビューポイントビデオから物理的に基づいた神経逆レンダリングの … 続きを読む

カテゴリー: cs.CV | コメントする

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

要約 マルチモーダル大手言語モデル(MLLM)は、視覚機能を備えた事前に訓練され … 続きを読む

カテゴリー: cs.CV | コメントする

FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction

要約 このペーパーでは、複雑な動きで動的な3Dシーンを再構築するという課題に取り … 続きを読む

カテゴリー: cs.CV | コメントする

Contrastive Flow Matching

要約 無条件のフローマッチング列車拡散モデルは、サンプルペア間のフローが一意であ … 続きを読む

カテゴリー: cs.CV | コメントする

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

要約 現実世界のビデオ設定での数学的推論は、静的な画像やテキストよりも根本的に異 … 続きを読む

カテゴリー: cs.CV | コメントする

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

要約 既存の統一モデルは、ビジョン言語の理解とテキストからイメージの生成において … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers

要約 ビデオ拡散変圧器の細かく効率的な制御可能性は、適用可能性に対する増大する欲 … 続きを読む

カテゴリー: cs.CV | コメントする

SplArt: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting

要約 毎日の環境で一般的な明確なオブジェクトの再構築は、拡張/仮想現実とロボット … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM, cs.RO | コメントする

Zero-Shot Temporal Interaction Localization for Egocentric Videos

要約 ビデオ内のヒューマンオブジェクト相互作用(HOI)アクションを見つけること … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする