Text2Light: Zero-Shot Text-Driven HDR Panorama Generation


タイトル:Text2Light:Zero-Shot Text-Driven HDR Panorama Generation(テキストから導かれるHDRパノラマ生成のゼロショット手法)


– HDRパノラマは、3Dシーンのフォトリアルなライティングや360度の反射を作り出すのに最も一般的な方法の1つである。
– HDRパノラマのキャプチャの難しさを考慮すると、多目的で制御可能な生成モデルが非常に望まれる。しかし、現存する最先端の方法でも、複雑なシーンの高品質なパノラマを合成することはまだ困難である。
– この研究では、Text2Lightというゼロショットのテキストから導かれるフレームワークを提案している。ペアのトレーニングデータを必要とせず、4K+の解像度のHDRパノラマを生成することができる。
– ゼロショットテキスト駆動のパノラマ生成を実現するために、デュアルコードブックを構築し、プレートレーニングされたCLIPモデルによって駆動されたテキストに基づくグローバルサンプラがグローバルコードブックから全体的な意味をサンプリングする方法を学習する。そして、構造を意識したローカルサンプラが全体的な意味によってガイドされて、パッチごとにLDRパノラマを合成することを学習する。
– さらに、LDRパノラマから構造化された球体にアンカー付けされた一連の構造化された潜在コードとして、360度イメージングの連続的な表現を導出して、解像度とダイナミックレンジを同時にアップスケールするための多目的なモジュールを可能にする。
– 幅広い実験により、Text2Lightが高品質なHDRパノラマを生成する能力が優れていることが示された。さらに、現実的なレンダリングや没入型VRでの使用も可能であることが示されている。


High-quality HDRIs(High Dynamic Range Images), typically HDR panoramas, are one of the most popular ways to create photorealistic lighting and 360-degree reflections of 3D scenes in graphics. Given the difficulty of capturing HDRIs, a versatile and controllable generative model is highly desired, where layman users can intuitively control the generation process. However, existing state-of-the-art methods still struggle to synthesize high-quality panoramas for complex scenes. In this work, we propose a zero-shot text-driven framework, Text2Light, to generate 4K+ resolution HDRIs without paired training data. Given a free-form text as the description of the scene, we synthesize the corresponding HDRI with two dedicated steps: 1) text-driven panorama generation in low dynamic range(LDR) and low resolution, and 2) super-resolution inverse tone mapping to scale up the LDR panorama both in resolution and dynamic range. Specifically, to achieve zero-shot text-driven panorama generation, we first build dual codebooks as the discrete representation for diverse environmental textures. Then, driven by the pre-trained CLIP model, a text-conditioned global sampler learns to sample holistic semantics from the global codebook according to the input text. Furthermore, a structure-aware local sampler learns to synthesize LDR panoramas patch-by-patch, guided by holistic semantics. To achieve super-resolution inverse tone mapping, we derive a continuous representation of 360-degree imaging from the LDR panorama as a set of structured latent codes anchored to the sphere. This continuous representation enables a versatile module to upscale the resolution and dynamic range simultaneously. Extensive experiments demonstrate the superior capability of Text2Light in generating high-quality HDR panoramas. In addition, we show the feasibility of our work in realistic rendering and immersive VR.


著者 Zhaoxi Chen,Guangcong Wang,Ziwei Liu
発行日 2023-04-14 12:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.GR パーマリンク