要約
この研究では、ランダム ノイズから大規模な 3D 風景を合成する、境界のない 3D シーンの無条件生成モデルである SceneDreamer を紹介します。
私たちのフレームワークは、3D 注釈なしで、野生の 2D 画像コレクションのみから学習されます。
SceneDreamer の中核となるのは、1) 効率的かつ表現力豊かな 3D シーン表現、2) 生成シーンのパラメータ化、3) 2D 画像からの知識を活用できる効果的なレンダラーで構成される原則に基づいた学習パラダイムです。
私たちのアプローチは、シンプレックス ノイズから生成される効率的な鳥瞰図 (BEV) 表現から始まります。これには、表面の高さの高さフィールドと詳細なシーンのセマンティクスのセマンティック フィールドが含まれます。
この BEV シーン表現により、1) 2 次複雑度の 3D シーンの表現、2) 幾何学構造とセマンティクスのもつれの解消、3) 効率的なトレーニングが可能になります。
さらに、さまざまなシーンにわたって一般化可能な特徴をエンコードすることを目的として、3D 位置とシーンのセマンティクスに基づいて潜在空間をパラメーター化する新しい生成ニューラル ハッシュ グリッドを提案します。
最後に、敵対的トレーニングを通じて 2D 画像コレクションから学習したニューラル ボリューム レンダラーを使用して、フォトリアリスティックな画像を生成します。
広範な実験により、SceneDreamer の有効性と、鮮やかで多様な境界のない 3D 世界を生成する際の最先端の方法よりも優れていることが実証されています。
要約(オリジナル)
In this work, we present SceneDreamer, an unconditional generative model for unbounded 3D scenes, which synthesizes large-scale 3D landscapes from random noise. Our framework is learned from in-the-wild 2D image collections only, without any 3D annotations. At the core of SceneDreamer is a principled learning paradigm comprising 1) an efficient yet expressive 3D scene representation, 2) a generative scene parameterization, and 3) an effective renderer that can leverage the knowledge from 2D images. Our approach begins with an efficient bird’s-eye-view (BEV) representation generated from simplex noise, which includes a height field for surface elevation and a semantic field for detailed scene semantics. This BEV scene representation enables 1) representing a 3D scene with quadratic complexity, 2) disentangled geometry and semantics, and 3) efficient training. Moreover, we propose a novel generative neural hash grid to parameterize the latent space based on 3D positions and scene semantics, aiming to encode generalizable features across various scenes. Lastly, a neural volumetric renderer, learned from 2D image collections through adversarial training, is employed to produce photorealistic images. Extensive experiments demonstrate the effectiveness of SceneDreamer and superiority over state-of-the-art methods in generating vivid yet diverse unbounded 3D worlds.
arxiv情報
著者 | Zhaoxi Chen,Guangcong Wang,Ziwei Liu |
発行日 | 2023-12-07 18:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google