Text2Light: Zero-Shot Text-Driven HDR Panorama Generation

要約

高品質の HDRI (ハイ ダイナミック レンジ イメージ) (通常は HDR パノラマ) は、グラフィックで 3D シーンの写真のようにリアルな照明と 360 度の反射を作成する最も一般的な方法の 1 つです。
HDRI をキャプチャすることの難しさを考えると、素人ユーザーが生成プロセスを直感的に制御できる、汎用性が高く制御可能な生成モデルが強く望まれています。
ただし、既存の最先端の方法では、複雑なシーンの高品質のパノラマを合成するのにまだ苦労しています。
この作業では、ペアのトレーニング データなしで 4K+ 解像度の HDRI を生成するために、ゼロ ショット テキスト駆動型フレームワーク Text2Light を提案します。
シーンの説明として自由形式のテキストが与えられた場合、対応する HDRI を 2 つの専用ステップで合成します。
解像度とダイナミック レンジの両方で LDR パノラマを拡大します。
具体的には、ゼロショットのテキスト駆動型パノラマ生成を実現するために、最初に、多様な環境テクスチャの離散表現としてデュアル コードブックを構築します。
次に、事前トレーニング済みの CLIP モデルによって駆動され、テキスト調整されたグローバル サンプラーが、入力テキストに従ってグローバル コードブックから全体的なセマンティクスをサンプリングすることを学習します。
さらに、構造を認識するローカル サンプラーは、ホリスティック セマンティクスに導かれて、LDR パノラマをパッチごとに合成することを学習します。
超解像逆トーン マッピングを実現するために、LDR パノラマから 360 度イメージングの連続表現を、球体に固定された構造化された潜在コードのセットとして導き出します。
この連続的な表現により、汎用性の高いモジュールで解像度とダイナミック レンジを同時にアップスケールできます。
高品質の HDR パノラマを生成する際の Text2Light の優れた機能は、広範な実験によって実証されています。
さらに、現実的なレンダリングと没入型 VR での作業の実現可能性を示します。

要約(オリジナル)

High-quality HDRIs(High Dynamic Range Images), typically HDR panoramas, are one of the most popular ways to create photorealistic lighting and 360-degree reflections of 3D scenes in graphics. Given the difficulty of capturing HDRIs, a versatile and controllable generative model is highly desired, where layman users can intuitively control the generation process. However, existing state-of-the-art methods still struggle to synthesize high-quality panoramas for complex scenes. In this work, we propose a zero-shot text-driven framework, Text2Light, to generate 4K+ resolution HDRIs without paired training data. Given a free-form text as the description of the scene, we synthesize the corresponding HDRI with two dedicated steps: 1) text-driven panorama generation in low dynamic range(LDR) and low resolution, and 2) super-resolution inverse tone mapping to scale up the LDR panorama both in resolution and dynamic range. Specifically, to achieve zero-shot text-driven panorama generation, we first build dual codebooks as the discrete representation for diverse environmental textures. Then, driven by the pre-trained CLIP model, a text-conditioned global sampler learns to sample holistic semantics from the global codebook according to the input text. Furthermore, a structure-aware local sampler learns to synthesize LDR panoramas patch-by-patch, guided by holistic semantics. To achieve super-resolution inverse tone mapping, we derive a continuous representation of 360-degree imaging from the LDR panorama as a set of structured latent codes anchored to the sphere. This continuous representation enables a versatile module to upscale the resolution and dynamic range simultaneously. Extensive experiments demonstrate the superior capability of Text2Light in generating high-quality HDR panoramas. In addition, we show the feasibility of our work in realistic rendering and immersive VR.

arxiv情報

著者 Zhaoxi Chen,Guangcong Wang,Ziwei Liu
発行日 2022-09-20 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク