要約
拡散モデルは、勾配のベクトル場を予測することを学習します。
学習した勾配に連鎖則を適用し、微分可能なレンダラーのヤコビアンを介して拡散モデルのスコアを逆伝播することを提案します。これをボクセル放射輝度フィールドとしてインスタンス化します。
このセットアップは、複数のカメラ視点での 2D スコアを 3D スコアに集約し、事前トレーニング済みの 2D モデルを 3D データ生成用に再利用します。
このアプリケーションで発生する分布ミスマッチの技術的課題を特定し、それを解決するための新しい推定メカニズムを提案します。
大規模なLAIONデータセットでトレーニングされた最近リリースされたStable Diffusionを含む、いくつかの既製の拡散画像生成モデルでアルゴリズムを実行します。
要約(オリジナル)
A diffusion model learns to predict a vector field of gradients. We propose to apply chain rule on the learned gradients, and back-propagate the score of a diffusion model through the Jacobian of a differentiable renderer, which we instantiate to be a voxel radiance field. This setup aggregates 2D scores at multiple camera viewpoints into a 3D score, and repurposes a pretrained 2D model for 3D data generation. We identify a technical challenge of distribution mismatch that arises in this application, and propose a novel estimation mechanism to resolve it. We run our algorithm on several off-the-shelf diffusion image generative models, including the recently released Stable Diffusion trained on the large-scale LAION dataset.
arxiv情報
著者 | Haochen Wang,Xiaodan Du,Jiahao Li,Raymond A. Yeh,Greg Shakhnarovich |
発行日 | 2022-12-01 18:56:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google