StyleCity: Large-Scale 3D Urban Scenes Stylization with Vision-and-Text Reference via Progressive Optimization

要約

さまざまなスタイルを使用して大規模な仮想都市シーンを作成することは本質的に困難です。
バーチャル プロダクションのプロトタイプを容易にし、複雑なマテリアルや照明のセットアップの必要性を回避するために、大規模な都市シーン向けの初のビジョンとテキスト駆動のテクスチャ スタイライゼーション システム、StyleCity を導入します。
StyleCity は、画像とテキストを参照として、セマンティクスを意識した方法で大規模な都市シーンの 3D テクスチャ メッシュを様式化し、調和のとれた全方位の空の背景を生成します。
それを達成するために、2D のビジョンとテキストの事前情報をグローバルおよびローカルに 3D に転送することで、ニューラル テクスチャ フィールドを様式化することを提案します。
3D スタイル化中、高品質のシーン コンテンツを維持するために、入力 3D シーンの計画されたトレーニング ビューをさまざまなレベルで段階的にスケールします。
次に、スタイル イメージのスケールをトレーニング ビューのスケールに適合させることで、シーン スタイルをグローバルに最適化します。
さらに、写真のようにリアルな様式化に重要なセマンティクスを意識したスタイルの損失により、ローカルのセマンティクスの一貫性を強化します。
テクスチャの様式化に加えて、生成拡散モデルをさらに採用して、スタイルの一貫した全方位の空の画像を合成します。これにより、より没入感のある雰囲気が提供され、意味論的な様式化プロセスが支援されます。
様式化されたニューラル テクスチャ フィールドは、任意の解像度のテクスチャにベイク処理できるため、従来のレンダリング パイプラインへのシームレスな統合が可能になり、仮想プロダクション プロトタイピング プロセスが大幅に簡素化されます。
広範な実験により、定性的および定量的なパフォーマンスとユーザーの好みにおける定型化されたシーンの優位性が実証されました。

要約(オリジナル)

Creating large-scale virtual urban scenes with variant styles is inherently challenging. To facilitate prototypes of virtual production and bypass the need for complex materials and lighting setups, we introduce the first vision-and-text-driven texture stylization system for large-scale urban scenes, StyleCity. Taking an image and text as references, StyleCity stylizes a 3D textured mesh of a large-scale urban scene in a semantics-aware fashion and generates a harmonic omnidirectional sky background. To achieve that, we propose to stylize a neural texture field by transferring 2D vision-and-text priors to 3D globally and locally. During 3D stylization, we progressively scale the planned training views of the input 3D scene at different levels in order to preserve high-quality scene content. We then optimize the scene style globally by adapting the scale of the style image with the scale of the training views. Moreover, we enhance local semantics consistency by the semantics-aware style loss which is crucial for photo-realistic stylization. Besides texture stylization, we further adopt a generative diffusion model to synthesize a style-consistent omnidirectional sky image, which offers a more immersive atmosphere and assists the semantic stylization process. The stylized neural texture field can be baked into an arbitrary-resolution texture, enabling seamless integration into conventional rendering pipelines and significantly easing the virtual production prototyping process. Extensive experiments demonstrate our stylized scenes’ superiority in qualitative and quantitative performance and user preferences.

arxiv情報

著者 Yingshu Chen,Huajian Huang,Tuan-Anh Vu,Ka Chun Shum,Sai-Kit Yeung
発行日 2024-04-16 15:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク