LucidDreaming: Controllable Object-Centric 3D Generation

要約

最近の生成モデルの開発により、Text-to-3D 世代も大幅に成長し、より一般の人々によるビデオゲーム 3D アセットの作成への扉が開かれました。
それにもかかわらず、専門的な 3D 編集の経験のない人は、特にプロンプ​​ト内に複数のオブジェクトがある場合、テキストを使用して制御すると、オブジェクトの欠落や不正確な位置が発生することがよくあるため、3D 生成を正確に制御するのが難しいと感じるでしょう。
この論文では、テキストのプロンプト コマンドまたは 3D バウンディング ボックスのみから 3D 生成を空間的および数値的に制御できる効果的なパイプラインとして LucidDreaming を紹介します。
具体的には、私たちの研究は、ラージ言語モデル (LLM) が 3D 空間認識を備えており、テキストの 3D 情報を正確な 3D 境界ボックスに効果的に変換できることを実証しています。
プロセスの最初のステップとして、LLM を利用して個々のオブジェクト情報とその 3D 境界ボックスを取得します。
次に、バウンディング ボックスを使用して、バウンディング ボックスに合わせて 3D オブジェクトを生成するために、クリップされたレイ サンプリングとオブジェクト中心の密度ブロブ バイアスをさらに提案します。
私たちの手法は、主流のスコア蒸留サンプリング ベースの 3D 生成フレームワークの範囲全体にわたって顕著な適応性を示し、パイプラインは既存の NeRF シーンにオブジェクトを挿入するためにも使用できることを示します。
さらに、3D 空間制御性のベンチマークとなる 3D 境界ボックスを含むプロンプトのデータセットも提供します。
広範な定性的および定量的な実験により、LucidDreaming が現在のアプローチと比較して、オブジェクトの配置精度と生成の忠実度において優れた結果を達成しながら、柔軟性と非専門ユーザーにとっての使いやすさを維持していることを実証しました。

要約(オリジナル)

With the recent development of generative models, Text-to-3D generations have also seen significant growth, opening a door for creating video-game 3D assets from a more general public. Nonetheless, people without any professional 3D editing experience would find it hard to achieve precise control over the 3D generation, especially if there are multiple objects in the prompt, as using text to control often leads to missing objects and imprecise locations. In this paper, we present LucidDreaming as an effective pipeline capable of spatial and numerical control over 3D generation from only textual prompt commands or 3D bounding boxes. Specifically, our research demonstrates that Large Language Models (LLMs) possess 3D spatial awareness and can effectively translate textual 3D information into precise 3D bounding boxes. We leverage LLMs to get individual object information and their 3D bounding boxes as the initial step of our process. Then with the bounding boxes, We further propose clipped ray sampling and object-centric density blob bias to generate 3D objects aligning with the bounding boxes. We show that our method exhibits remarkable adaptability across a spectrum of mainstream Score Distillation Sampling-based 3D generation frameworks and our pipeline can even used to insert objects into an existing NeRF scene. Moreover, we also provide a dataset of prompts with 3D bounding boxes, benchmarking 3D spatial controllability. With extensive qualitative and quantitative experiments, we demonstrate that LucidDreaming achieves superior results in object placement precision and generation fidelity compared to current approaches, while maintaining flexibility and ease of use for non-expert users.

arxiv情報

著者 Zhaoning Wang,Ming Li,Chen Chen
発行日 2024-08-09 17:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク