Score Distillation via Reparametrized DDIM

要約

2D 拡散モデルはリアルで詳細な画像を生成しますが、これらの 2D 拡散モデルに基づいて構築されたスコア蒸留サンプリング (SDS) などの 3D 形状生成手法では、漫画のような過度に平滑化された形状が生成されます。
この矛盾の説明を助けるために、スコア蒸留で使用されるイメージ ガイダンスが、ノイズ項の選択に至るまで、2D ノイズ除去生成プロセスの速度場として理解できることを示します。
特に、変数の変更後、SDS は、異なるサンプリングのノイズ項を備えたノイズ除去拡散暗黙モデル (DDIM) の高分散バージョンに似ています。SDS は、ノイズ i.i.d. を導入します。
各ステップでランダムに、DDIM は前のノイズ予測から推測します。
この過度の分散により、過度に平滑化された非現実的な出力が発生する可能性があります。
各 SDS 更新ステップで DDIM を反転することで、より優れたノイズ近似を回復できることを示します。
この変更により、SDS の 2D 画像生成プロセスは DDIM とほぼ同じになります。
3D では、過剰なスムージングを除去し、高周波のディテールを保持し、生成品質を 2D サンプラーの品質に近づけます。
実験的に、私たちの方法は、他の最先端のスコア蒸留方法と比較して、より優れた、または同等の 3D 生成品質を達成します。すべて、追加のニューラル ネットワークのトレーニングやマルチビュー監視を必要とせず、2D と 3D アセット生成の関係について有益な洞察を提供します。
普及モデル。

要約(オリジナル)

While 2D diffusion models generate realistic, high-detail images, 3D shape generation methods like Score Distillation Sampling (SDS) built on these 2D diffusion models produce cartoon-like, over-smoothed shapes. To help explain this discrepancy, we show that the image guidance used in Score Distillation can be understood as the velocity field of a 2D denoising generative process, up to the choice of a noise term. In particular, after a change of variables, SDS resembles a high-variance version of Denoising Diffusion Implicit Models (DDIM) with a differently-sampled noise term: SDS introduces noise i.i.d. randomly at each step, while DDIM infers it from the previous noise predictions. This excessive variance can lead to over-smoothing and unrealistic outputs. We show that a better noise approximation can be recovered by inverting DDIM in each SDS update step. This modification makes SDS’s generative process for 2D images almost identical to DDIM. In 3D, it removes over-smoothing, preserves higher-frequency detail, and brings the generation quality closer to that of 2D samplers. Experimentally, our method achieves better or similar 3D generation quality compared to other state-of-the-art Score Distillation methods, all without training additional neural networks or multi-view supervision, and providing useful insights into relationship between 2D and 3D asset generation with diffusion models.

arxiv情報

著者 Artem Lukoianov,Haitz Sáez de Ocáriz Borde,Kristjan Greenewald,Vitor Campagnolo Guizilini,Timur Bagautdinov,Vincent Sitzmann,Justin Solomon
発行日 2024-06-13 17:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク