Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

要約

3D モデリングでは、デザイナーは既存の 3D モデルを参照として使用して新しいモデルを作成することがよくあります。
この実践は、参照拡張 3D 生成に拡散を使用する新しい生成モデルである Phidias の開発にインスピレーションを与えました。
画像が与えられると、私たちの方法では、取得した、またはユーザーが提供した 3D 参照モデルを利用して生成プロセスをガイドし、それによって生成の品質、汎化能力、および制御性を向上させます。
私たちのモデルは、3 つの重要なコンポーネントを統合しています。1) コンディショニングの強度を動的に調整するメタ ControlNet、2) 入力画像と 3D 参照の間の位置ずれを軽減する動的参照ルーティング、3) 自己教師ありトレーニングを可能にする自己参照拡張
進歩的なカリキュラム。
これらの設計を総合すると、既存の方法に比べて明らかな改善が得られます。
Phidias は、テキスト、画像、および 3D 条件を多用途なアプリケーションで使用して 3D 生成のための統一フレームワークを確立します。

要約(オリジナル)

In 3D modeling, designers often use an existing 3D model as a reference to create new ones. This practice has inspired the development of Phidias, a novel generative model that uses diffusion for reference-augmented 3D generation. Given an image, our method leverages a retrieved or user-provided 3D reference model to guide the generation process, thereby enhancing the generation quality, generalization ability, and controllability. Our model integrates three key components: 1) meta-ControlNet that dynamically modulates the conditioning strength, 2) dynamic reference routing that mitigates misalignment between the input image and 3D reference, and 3) self-reference augmentations that enable self-supervised training with a progressive curriculum. Collectively, these designs result in a clear improvement over existing methods. Phidias establishes a unified framework for 3D generation using text, image, and 3D conditions with versatile applications.

arxiv情報

著者 Zhenwei Wang,Tengfei Wang,Zexin He,Gerhard Hancke,Ziwei Liu,Rynson W. H. Lau
発行日 2024-09-17 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク