要約
この研究では、単一ビュー画像、テキスト プロンプト、またはその両方を条件として、制御可能で一貫性のあるマルチビュー画像を生成するように設計された柔軟なフレームワークである FlexGen を紹介します。
FlexGen は、3D 対応のテキスト注釈に対する追加の条件付けを通じて、制御可能なマルチビュー合成の課題に取り組みます。
GPT-4V の強力な推論機能を利用して、3D 対応のテキスト注釈を生成します。
GPT-4V は、タイル状のマルチビュー画像として配置されたオブジェクトの 4 つの直交ビューを分析することにより、空間関係を持つ 3D 認識情報を含むテキスト注釈を生成できます。
制御信号を提案された適応デュアル制御モジュールと統合することにより、私たちのモデルは、指定されたテキストに対応するマルチビュー画像を生成できます。
FlexGen は複数の制御可能な機能をサポートしており、ユーザーがテキスト プロンプトを変更して、適切な対応する目に見えない部分を生成できるようにします。
さらに、ユーザーは外観や金属性や粗さなどの材料特性などの属性に影響を与えることができます。
広範な実験により、私たちのアプローチが強化された複数の制御性を提供し、既存のマルチビュー拡散モデルよりも大幅に進歩していることが実証されました。
この成果は、ゲーム開発、アニメーション、仮想現実など、迅速かつ柔軟な 3D コンテンツ作成が必要な分野に大きな影響を与えます。
プロジェクトページ: https://xxu068.github.io/flexgen.github.io/。
要約(オリジナル)
In this work, we introduce FlexGen, a flexible framework designed to generate controllable and consistent multi-view images, conditioned on a single-view image, or a text prompt, or both. FlexGen tackles the challenges of controllable multi-view synthesis through additional conditioning on 3D-aware text annotations. We utilize the strong reasoning capabilities of GPT-4V to generate 3D-aware text annotations. By analyzing four orthogonal views of an object arranged as tiled multi-view images, GPT-4V can produce text annotations that include 3D-aware information with spatial relationship. By integrating the control signal with proposed adaptive dual-control module, our model can generate multi-view images that correspond to the specified text. FlexGen supports multiple controllable capabilities, allowing users to modify text prompts to generate reasonable and corresponding unseen parts. Additionally, users can influence attributes such as appearance and material properties, including metallic and roughness. Extensive experiments demonstrate that our approach offers enhanced multiple controllability, marking a significant advancement over existing multi-view diffusion models. This work has substantial implications for fields requiring rapid and flexible 3D content creation, including game development, animation, and virtual reality. Project page: https://xxu068.github.io/flexgen.github.io/.
arxiv情報
著者 | Xinli Xu,Wenhang Ge,Jiantao Lin,Jiawei Feng,Lie Xu,HanFeng Zhao,Shunsi Zhang,Ying-Cong Chen |
発行日 | 2024-10-14 17:23:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google