DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

要約

事前トレーニングされた 2D 大規模生成モデルを利用することで、最近の研究では、単一の実際の画像から高品質の新しいビューを生成できます。
ただし、複数のビューからの情報が不足しているため、これらの作品では、制御可能な新しいビューを生成することが困難になります。
このペーパーでは、マルチビュー条件を注入することで既存のビュー認識拡散モデルを強化できる、柔軟でスケーラブルなフレームワークである DreamComposer を紹介します。
具体的には、DreamComposer はまずビュー対応 3D リフティング モジュールを使用して、複数のビューからオブジェクトの 3D 表現を取得します。
次に、マルチビュー特徴融合モジュールを使用して、3D 表現からターゲット ビューの潜在特徴をレンダリングします。
最後に、マルチビュー入力から抽出されたターゲット ビューの特徴が、事前トレーニングされた拡散モデルに注入されます。
実験の結果、DreamComposer はゼロショットの新規ビュー合成用の最先端の拡散モデルと互換性があり、それらをさらに強化してマルチビュー条件で高忠実度の新規ビュー画像を生成し、制御可能な 3D オブジェクトの再構成やその他のさまざまな準備が整っていることが示されています。
アプリケーション。

要約(オリジナル)

Utilizing pre-trained 2D large-scale generative models, recent works are capable of generating high-quality novel views from a single in-the-wild image. However, due to the lack of information from multiple views, these works encounter difficulties in generating controllable novel views. In this paper, we present DreamComposer, a flexible and scalable framework that can enhance existing view-aware diffusion models by injecting multi-view conditions. Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain 3D representations of an object from multiple views. Then, it renders the latent features of the target view from 3D representations with the multi-view feature fusion module. Finally the target view features extracted from multi-view inputs are injected into a pre-trained diffusion model. Experiments show that DreamComposer is compatible with state-of-the-art diffusion models for zero-shot novel view synthesis, further enhancing them to generate high-fidelity novel view images with multi-view conditions, ready for controllable 3D object reconstruction and various other applications.

arxiv情報

著者 Yunhan Yang,Yukun Huang,Xiaoyang Wu,Yuan-Chen Guo,Song-Hai Zhang,Hengshuang Zhao,Tong He,Xihui Liu
発行日 2023-12-06 16:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク