要約
3D 生成のプロンプトとして画像を使用すると、テキスト プロンプトのみを使用する場合と比較して、特に優れたパフォーマンスが実証されます。これは、画像が 3D 生成プロセスのより直感的なガイダンスを提供するためです。
この研究では、3D 生成に単一の画像プロンプトではなく複数の画像プロンプトを使用する可能性を掘り下げます。
具体的には、新しい画像プロンプトのマルチビュー拡散モデルである ImageDream を基盤として構築し、入力プロンプトとしてマルチビュー画像をサポートします。
MultiImageDream と呼ばれる私たちの方法は、単一画像プロンプトから複数画像プロンプトに移行すると、さまざまな定量的評価メトリクスと定性的評価に従って、マルチビューおよび 3D オブジェクト生成のパフォーマンスが向上することを明らかにしています。
この進歩は、事前にトレーニングされた ImageDream マルチビュー拡散モデルを微調整する必要なしに達成されます。
要約(オリジナル)
Using image as prompts for 3D generation demonstrate particularly strong performances compared to using text prompts alone, for images provide a more intuitive guidance for the 3D generation process. In this work, we delve into the potential of using multiple image prompts, instead of a single image prompt, for 3D generation. Specifically, we build on ImageDream, a novel image-prompt multi-view diffusion model, to support multi-view images as the input prompt. Our method, dubbed MultiImageDream, reveals that transitioning from a single-image prompt to multiple-image prompts enhances the performance of multi-view and 3D object generation according to various quantitative evaluation metrics and qualitative assessments. This advancement is achieved without the necessity of fine-tuning the pre-trained ImageDream multi-view diffusion model.
arxiv情報
著者 | Seungwook Kim,Yichun Shi,Kejie Li,Minsu Cho,Peng Wang |
発行日 | 2024-04-26 13:55:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google