要約
潜在拡散モデルは、視覚的出力の作成と操作において最先端であることが証明されている。しかし、我々が知る限り、RGBと共同で深度マップを生成することはまだ限られている。我々は、LDM3D-panoとLDM3D-SRを含む、バーチャルリアリティ開発をターゲットとした拡散モデル群であるLDM3D-VRを紹介する。これらのモデルはそれぞれ、テキストプロンプトに基づくパノラマRGBDの生成と、低解像度入力の高解像度RGBDへのアップスケーリングを可能にする。我々のモデルは、パノラマ/高解像度RGB画像、深度マップ、キャプションを含むデータセット上で既存の事前学習済みモデルを微調整したものである。両モデルを既存の関連手法と比較して評価する。
要約(オリジナル)
Latent diffusion models have proven to be state-of-the-art in the creation and manipulation of visual outputs. However, as far as we know, the generation of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite of diffusion models targeting virtual reality development that includes LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD based on textual prompts and the upscaling of low-resolution inputs to high-resolution RGBD, respectively. Our models are fine-tuned from existing pretrained models on datasets containing panoramic/high-resolution RGB images, depth maps and captions. Both models are evaluated in comparison to existing related methods.
arxiv情報
著者 | Gabriela Ben Melech Stan,Diana Wofk,Estelle Aflalo,Shao-Yen Tseng,Zhipeng Cai,Michael Paulitsch,Vasudev Lal |
発行日 | 2023-11-06 16:12:10+00:00 |
arxivサイト | arxiv_id(pdf) |