Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields

要約

テキスト駆動の 3D シーン生成は、3D シーンの需要が大きいビデオ ゲーム、映画業界、メタバース アプリケーションに広く適用できます。
ただし、既存のテキストから 3D への生成方法は、単純なジオメトリと現実性に欠ける夢のようなスタイルを持つ 3D オブジェクトの生成に限定されています。
この研究では、複雑な幾何学的構造と忠実度の高いテクスチャを備えた幅広い 3D シーンを純粋にテキスト プロンプトから生成できる Text2NeRF を紹介します。
この目的を達成するために、3D 表現として NeRF を採用し、事前トレーニングされたテキストから画像への拡散モデルを活用して、シーンの記述を反映するように NeRF の 3D 再構成を制約します。
具体的には、拡散モデルを使用してテキスト関連画像を事前コンテンツとして推論し、単眼奥行き推定法を使用して幾何学的事前推定を提供します。
内容と幾何事前分布の両方を利用して NeRF モデルを更新します。
異なるビュー間のテクスチャと幾何学的な一貫性を保証するために、シーンの新しいビュー合成のためのプログレッシブ シーン修復および更新戦略を導入します。
私たちの方法では追加のトレーニング データは必要なく、入力としてシーンの自然言語記述のみが必要です。
広範な実験により、当社の Text2NeRF は、さまざまな自然言語プロンプトからフォトリアリスティックでマルチビューの一貫性のある多様な 3D シーンを生成する際に、既存の方法よりも優れていることが実証されました。

要約(オリジナル)

Text-driven 3D scene generation is widely applicable to video gaming, film industry, and metaverse applications that have a large demand for 3D scenes. However, existing text-to-3D generation methods are limited to producing 3D objects with simple geometries and dreamlike styles that lack realism. In this work, we present Text2NeRF, which is able to generate a wide range of 3D scenes with complicated geometric structures and high-fidelity textures purely from a text prompt. To this end, we adopt NeRF as the 3D representation and leverage a pre-trained text-to-image diffusion model to constrain the 3D reconstruction of the NeRF to reflect the scene description. Specifically, we employ the diffusion model to infer the text-related image as the content prior and use a monocular depth estimation method to offer the geometric prior. Both content and geometric priors are utilized to update the NeRF model. To guarantee textured and geometric consistency between different views, we introduce a progressive scene inpainting and updating strategy for novel view synthesis of the scene. Our method requires no additional training data but only a natural language description of the scene as the input. Extensive experiments demonstrate that our Text2NeRF outperforms existing methods in producing photo-realistic, multi-view consistent, and diverse 3D scenes from a variety of natural language prompts.

arxiv情報

著者 Jingbo Zhang,Xiaoyu Li,Ziyu Wan,Can Wang,Jing Liao
発行日 2023-05-19 10:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク