要約
テキストガイドによる画像生成における最近のブレークスルーは、テキストからの 3D 合成の分野で目覚ましい進歩をもたらしました。
テキストから直接ニューラル ラジアンス フィールド (NeRF) を最適化することにより、最近の方法は驚くべき結果を生み出すことができます。
ただし、これらの方法は、シーン全体を表現するため、各オブジェクトの配置や外観の制御に制限があります。
これは、シーン内のオブジェクトを調整または操作する必要があるシナリオでは大きな問題になる可能性があります。
この欠点を改善するために、オブジェクト プロキシを使用して 3D シーンを合成するための新しい GlobalLocal トレーニング フレームワークを提案します。
プロキシは、生成されたシーンでのオブジェクトの配置を表し、オプションでその粗いジオメトリを定義します。
私たちのアプローチの鍵は、各オブジェクトを独立した NeRF として表現することです。
各 NeRF を単独で最適化するか、シーン全体の一部として最適化するかを交互に行います。
したがって、各オブジェクトの完全な表現を学習しながら、スタイルと照明が一致する調和のとれたシーンを作成することもできます。
プロキシを使用すると、独立した各オブジェクトの配置を調整したり、シーンからオブジェクトを削除したり、オブジェクトを調整したりするなど、さまざまな編集オプションが可能になることを示します。
私たちの結果は、Set-the-Scene がシーンの合成と操作のための強力なソリューションを提供し、制御可能なテキストから 3D への合成における重大なギャップを埋めることを示しています。
要約(オリジナル)
Recent breakthroughs in text-guided image generation have led to remarkable progress in the field of 3D synthesis from text. By optimizing neural radiance fields (NeRF) directly from text, recent methods are able to produce remarkable results. Yet, these methods are limited in their control of each object’s placement or appearance, as they represent the scene as a whole. This can be a major issue in scenarios that require refining or manipulating objects in the scene. To remedy this deficit, we propose a novel GlobalLocal training framework for synthesizing a 3D scene using object proxies. A proxy represents the object’s placement in the generated scene and optionally defines its coarse geometry. The key to our approach is to represent each object as an independent NeRF. We alternate between optimizing each NeRF on its own and as part of the full scene. Thus, a complete representation of each object can be learned, while also creating a harmonious scene with style and lighting match. We show that using proxies allows a wide variety of editing options, such as adjusting the placement of each independent object, removing objects from a scene, or refining an object. Our results show that Set-the-Scene offers a powerful solution for scene synthesis and manipulation, filling a crucial gap in controllable text-to-3D synthesis.
arxiv情報
著者 | Dana Cohen-Bar,Elad Richardson,Gal Metzer,Raja Giryes,Daniel Cohen-Or |
発行日 | 2023-03-23 17:17:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google