要約
テキストから 3D への合成は、事前トレーニング済みのテキストから画像へのモデルをガイドとなる視覚的な事前分布として採用することにより、3D モデルをサンプリングする新しいアプローチとして最近登場しました。
既存のテキストから 3D への手法に関する興味深いが十分に解明されていない問題は、最適化によるサンプリング手順から得られた 3D モデルにはモード崩壊が発生する傾向があり、その結果、結果の多様性が乏しくなることです。
この論文では、このような限られた多様性の潜在的な原因を分析して特定します。これは、同じテキスト プロンプトから異なる 3D モデルを共同生成することを考慮した新しい方法を考案する動機になります。
共同生成を多様化するために、参照画像のテキスト反転による拡張テキスト プロンプトを使用することを提案します。
私たちの方法がテキストから 3D への合成の多様性を質的および量的に向上させることを示します。
プロジェクトページ:https://diversedream.github.io
要約(オリジナル)
Text-to-3D synthesis has recently emerged as a new approach to sampling 3D models by adopting pretrained text-to-image models as guiding visual priors. An intriguing but underexplored problem with existing text-to-3D methods is that 3D models obtained from the sampling-by-optimization procedure tend to have mode collapses, and hence poor diversity in their results. In this paper, we provide an analysis and identify potential causes of such a limited diversity, which motivates us to devise a new method that considers the joint generation of different 3D models from the same text prompt. We propose to use augmented text prompts via textual inversion of reference images to diversify the joint generation. We show that our method leads to improved diversity in text-to-3D synthesis qualitatively and quantitatively. Project page: https://diversedream.github.io
arxiv情報
著者 | Uy Dieu Tran,Minh Luu,Phong Ha Nguyen,Khoi Nguyen,Binh-Son Hua |
発行日 | 2024-07-17 17:03:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google