Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

要約

事前トレーニングされた 2D 拡散モデルの利用可能性が高まったことに後押しされて、スコア蒸留サンプリング (SDS) を活用した画像から 3D への生成は目覚ましい進歩を遂げています。
既存の手法のほとんどは、通常、基準画像を条件として取りながら、基準ビューでハード L2 画像監視を適用する 2D 拡散モデルからの新規ビュー リフティングを組み合わせています。
しかし、画像に強く固執すると、2D 拡散モデルの帰納的知識が損なわれる傾向があり、平坦または歪んだ 3D 生成が頻繁に発生します。
この研究では、新しい視点で画像から 3D への変換を再検討し、画像 CLIP 埋め込みのみを入力として受け取る画像から 3D 生成パイプラインである Isotropic3D を紹介します。
Isotropic3D を使用すると、最適化を全体的に等方的に行うことができます。
SDS 損失のみに基づいて方位角を計算します。
私たちのフレームワークの中核は、2 段階の普及モデルの微調整にあります。
まず、テキスト エンコーダを画像エンコーダに置き換えることにより、テキストから 3D への拡散モデルを微調整します。これにより、モデルは画像から画像への機能を事前に獲得します。
次に、ノイズのあるマルチビュー画像とノイズのない参照画像を明示的な条件として組み合わせる明示的なマルチビュー アテンション (EMA) を使用して微調整を実行します。
CLIP 埋め込みはプロセス全体を通じて拡散モデルに送信されますが、参照画像は微調整後に一度破棄されます。
その結果、Isotropic3D は、単一の画像 CLIP 埋め込みで、マルチビューの相互に一貫性のある画像を生成することができ、また、既存の画像と比較して、より対称的で整った内容、均整のとれたジオメトリ、豊富な色のテクスチャ、および歪みの少ない 3D モデルを生成することもできます。
参照画像との類似性を大幅に維持しながら、-to-3D メソッドを使用できます。
プロジェクト ページは https://isotropic3d.github.io/ で入手できます。
コードとモデルは https://github.com/pkunliu/Isotropic3D で入手できます。

要約(オリジナル)

Encouraged by the growing availability of pre-trained 2D diffusion models, image-to-3D generation by leveraging Score Distillation Sampling (SDS) is making remarkable progress. Most existing methods combine novel-view lifting from 2D diffusion models which usually take the reference image as a condition while applying hard L2 image supervision at the reference view. Yet heavily adhering to the image is prone to corrupting the inductive knowledge of the 2D diffusion model leading to flat or distorted 3D generation frequently. In this work, we reexamine image-to-3D in a novel perspective and present Isotropic3D, an image-to-3D generation pipeline that takes only an image CLIP embedding as input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth angle by solely resting on the SDS loss. The core of our framework lies in a two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D diffusion model by substituting its text encoder with an image encoder, by which the model preliminarily acquires image-to-image capabilities. Secondly, we perform fine-tuning using our Explicit Multi-view Attention (EMA) which combines noisy multi-view images with the noise-free reference image as an explicit condition. CLIP embedding is sent to the diffusion model throughout the whole process while reference images are discarded once after fine-tuning. As a result, with a single image CLIP embedding, Isotropic3D is capable of generating multi-view mutually consistent images and also a 3D model with more symmetrical and neat content, well-proportioned geometry, rich colored texture, and less distortion compared with existing image-to-3D methods while still preserving the similarity to the reference image to a large extent. The project page is available at https://isotropic3d.github.io/. The code and models are available at https://github.com/pkunliu/Isotropic3D.

arxiv情報

著者 Pengkun Liu,Yikai Wang,Fuchun Sun,Jiafang Li,Hang Xiao,Hongxiang Xue,Xinzhou Wang
発行日 2024-03-15 15:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク