RGB$\leftrightarrow$X: Image decomposition and synthesis using material- and lighting-aware diffusion models

要約

リアルなフォワード レンダリング、ピクセルごとのインバース レンダリング、および生成画像合成の 3 つの領域は、グラフィックスとビジョンの別個の無関係なサブフィールドのように見えるかもしれません。
しかし、最近の研究では、拡散アーキテクチャに基づいたピクセルごとの固有チャネル (アルベド、粗さ、金属性) の推定が改善されたことが実証されました。
これを RGB$\rightarrow$X 問題と呼びます。
さらに、固有チャネル X$\rightarrow$RGB を与えられたリアルな画像を合成するという逆の問題も拡散フレームワークで対処できることを示します。
インテリア シーンの画像領域に焦点を当て、照明も推定する RGB$\rightarrow$X の改良された拡散モデルと、(フルまたはフルまたは
部分的)固有チャネル。
私たちの X$\rightarrow$RGB モデルは、従来のレンダリング モデルと生成モデルの間の中間点を探ります。従うべき特定の外観プロパティのみを指定し、残りのもっともらしいバージョンを幻覚させる自由をモデルに与えることができます。
この柔軟性により、利用可能なチャネルが異なる異種トレーニング データセットを組み合わせて使用​​することが可能になります。
複数の既存のデータセットを使用し、独自の合成データと実際のデータで拡張することで、以前の作業よりもシーンのプロパティを抽出し、室内シーンの非常に現実的な画像を生成できるモデルが得られます。

要約(オリジナル)

The three areas of realistic forward rendering, per-pixel inverse rendering, and generative image synthesis may seem like separate and unrelated sub-fields of graphics and vision. However, recent work has demonstrated improved estimation of per-pixel intrinsic channels (albedo, roughness, metallicity) based on a diffusion architecture; we call this the RGB$\rightarrow$X problem. We further show that the reverse problem of synthesizing realistic images given intrinsic channels, X$\rightarrow$RGB, can also be addressed in a diffusion framework. Focusing on the image domain of interior scenes, we introduce an improved diffusion model for RGB$\rightarrow$X, which also estimates lighting, as well as the first diffusion X$\rightarrow$RGB model capable of synthesizing realistic images from (full or partial) intrinsic channels. Our X$\rightarrow$RGB model explores a middle ground between traditional rendering and generative models: we can specify only certain appearance properties that should be followed, and give freedom to the model to hallucinate a plausible version of the rest. This flexibility makes it possible to use a mix of heterogeneous training datasets, which differ in the available channels. We use multiple existing datasets and extend them with our own synthetic and real data, resulting in a model capable of extracting scene properties better than previous work and of generating highly realistic images of interior scenes.

arxiv情報

著者 Zheng Zeng,Valentin Deschaintre,Iliyan Georgiev,Yannick Hold-Geoffroy,Yiwei Hu,Fujun Luan,Ling-Qi Yan,Miloš Hašan
発行日 2024-05-01 17:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク