要約
拡散モデルは最先端の画像生成です。
大規模なデータセットでトレーニングされ、修復、深度、(表面) 法線予測などのタスクに使用される表現力豊かな画像事前分布をキャプチャします。
ただし、これらのモデルは通常、1 つの特定のタスク、たとえば、色、深度、法線予測のそれぞれについて個別のモデル用にトレーニングされます。
このようなモデルは、外観とジオメトリの間の本質的な相関関係を活用していないため、多くの場合、一貫性のない予測が発生します。
この論文では、外観とジオメトリを共同でエンコードする新しい画像拡散プリアの使用を提案します。
潜在空間への色、深度、および表面法線をエンコードする変分オートエンコーダー (VAE) と、これらの結合潜在を生成するための潜在拡散モデル (LDM) で構成される拡散モデル Orchid を導入します。
Orchid は、ユーザーが提供したテキストからフォトリアリスティックなカラー イメージ、相対深度、および表面法線を直接生成し、イメージが位置合わせされた部分 3D シーンをシームレスに作成するために使用できます。
また、関節単眼深度や法線予測などの画像条件付きタスクを実行することもでき、これらのタスク専用に設計された最先端の方法と比較しても精度が優れています。
最後に、私たちのモデルは、外観とジオメトリが絡む多くの逆問題の正則化器としてゼロショットで使用できるジョイント プライアを学習します。
たとえば、色深度法線修復におけるその有効性を実証し、まばらなビューからの 3D 生成の問題への適用可能性を示します。
要約(オリジナル)
Diffusion models are state-of-the-art for image generation. Trained on large datasets, they capture expressive image priors that have been used for tasks like inpainting, depth, and (surface) normal prediction. However, these models are typically trained for one specific task, e.g., a separate model for each of color, depth, and normal prediction. Such models do not leverage the intrinsic correlation between appearance and geometry, often leading to inconsistent predictions. In this paper, we propose using a novel image diffusion prior that jointly encodes appearance and geometry. We introduce a diffusion model Orchid, comprising a Variational Autoencoder (VAE) to encode color, depth, and surface normals to a latent space, and a Latent Diffusion Model (LDM) for generating these joint latents. Orchid directly generates photo-realistic color images, relative depth, and surface normals from user-provided text, and can be used to create image-aligned partial 3D scenes seamlessly. It can also perform image-conditioned tasks like joint monocular depth and normal prediction and is competitive in accuracy to state-of-the-art methods designed for those tasks alone. Lastly, our model learns a joint prior that can be used zero-shot as a regularizer for many inverse problems that entangle appearance and geometry. For example, we demonstrate its effectiveness in color-depth-normal inpainting, showcasing its applicability to problems in 3D generation from sparse views.
arxiv情報
著者 | Akshay Krishnan,Xinchen Yan,Vincent Casser,Abhijit Kundu |
発行日 | 2025-01-22 18:46:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google