cs.CV」カテゴリーアーカイブ

StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models

要約 この論文は、車両センサー データからのフォトリアリスティックなビュー合成の … 続きを読む

カテゴリー: cs.CV | StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models はコメントを受け付けていません

InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds

要約 ニューラル 3D 再構成は大幅に進歩していますが、通常、慎重に初期化された … 続きを読む

カテゴリー: cs.CV | InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds はコメントを受け付けていません

MotionBridge: Dynamic Video Inbetweening with Flexible Controls

要約 2 つの画像フレーム間で妥当かつスムーズなトランジションを生成することによ … 続きを読む

カテゴリー: cs.CV | MotionBridge: Dynamic Video Inbetweening with Flexible Controls はコメントを受け付けていません

GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding

要約 3D セマンティック占有予測は、周囲環境の包括的なセマンティック認識を提供 … 続きを読む

カテゴリー: cs.CV | GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding はコメントを受け付けていません

CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models

要約 テキストから画像への拡散モデルは、フォトリアリスティックな画像の生成には優 … 続きを読む

カテゴリー: cs.CV | CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models はコメントを受け付けていません

Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents

要約 デジタル世界におけるインターネット閲覧エージェントや、物理世界における家庭 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents はコメントを受け付けていません

Causal Diffusion Transformers for Generative Modeling

要約 拡散モデルの自己回帰 (AR) 対応物として因果拡散を導入します。 これは … 続きを読む

カテゴリー: cs.CV | Causal Diffusion Transformers for Generative Modeling はコメントを受け付けていません

Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

要約 従来の強化学習ベースのロボット制御手法はタスク固有であることが多く、多様な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning はコメントを受け付けていません

From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach

要約 この論文では、2D CAD 図面から 3D パラメトリック モデルを再構成 … 続きを読む

カテゴリー: cs.CV | From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach はコメントを受け付けていません

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

要約 コンパクトで有益な 3D シーン表現を構築することは、特に長期間にわたる複 … 続きを読む

カテゴリー: cs.CV, cs.RO | 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning はコメントを受け付けていません