ESCT3D: Efficient and Selectively Controllable Text-Driven 3D Content Generation with Gaussian Splatting

要約

近年、テキスト駆動型の3Dコンテンツ生成において、大きな進歩がなされています。
ただし、いくつかの課題が残っています。
実際のアプリケーションでは、ユーザーは多くの場合、高品質の3Dコンテンツを期待しながら、非常に単純なテキスト入力を提供します。
このような最小限のテキストから最適な結果を生成することは、入力プロンプトの品質にテキストから3Dモデルが強く依存しているため、困難なタスクです。
さらに、生成プロセスは高いばらつきを示し、制御が困難になります。
したがって、ユーザーの期待を満たすコンテンツを作成し、生成効率を低下させるために、通常、複数の反復が必要です。
この問題に対処するために、自己最適化のためにGPT-4Vを提案します。これにより、1回の試行で満足のいくコンテンツを生成する効率が大幅に向上します。
さらに、テキストから3Dの生成方法の制御可能性は完全には検討されていません。
当社のアプローチにより、ユーザーはテキストの説明を提供するだけでなく、スタイル、エッジ、落書き、ポーズ、複数の条件の組み合わせなどの追加の条件を指定し、生成された3Dコンテンツをより正確に制御できるようになります。
さらに、トレーニング中に、マルチビューの深さ、マスク、機能、画像などのマルチビュー情報を効果的に統合して、3Dコンテンツ生成の一般的なヤヌス問題に対処します。
広範な実験は、我々の方法が堅牢な一般化を達成し、高品質の3Dコンテンツの効率的で制御可能な生成を促進することを示しています。

要約(オリジナル)

In recent years, significant advancements have been made in text-driven 3D content generation. However, several challenges remain. In practical applications, users often provide extremely simple text inputs while expecting high-quality 3D content. Generating optimal results from such minimal text is a difficult task due to the strong dependency of text-to-3D models on the quality of input prompts. Moreover, the generation process exhibits high variability, making it difficult to control. Consequently, multiple iterations are typically required to produce content that meets user expectations, reducing generation efficiency. To address this issue, we propose GPT-4V for self-optimization, which significantly enhances the efficiency of generating satisfactory content in a single attempt. Furthermore, the controllability of text-to-3D generation methods has not been fully explored. Our approach enables users to not only provide textual descriptions but also specify additional conditions, such as style, edges, scribbles, poses, or combinations of multiple conditions, allowing for more precise control over the generated 3D content. Additionally, during training, we effectively integrate multi-view information, including multi-view depth, masks, features, and images, to address the common Janus problem in 3D content generation. Extensive experiments demonstrate that our method achieves robust generalization, facilitating the efficient and controllable generation of high-quality 3D content.

arxiv情報

著者 Huiqi Wu,Jianbo Mei,Yingjie Huang,Yining Xu,Jingjiao You,Yilong Liu,Li Yao
発行日 2025-04-14 15:25:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク