要約
全方向性 RGB データがすぐに入手できないため、狭い視野の画像から完全な 360 度のパノラマを生成する研究が進行中です。
既存の GAN ベースのアプローチは、より高品質の出力を達成するにはいくつかの障壁に直面しており、さまざまなマスク タイプに対する汎化パフォーマンスが劣っています。
このペーパーでは、PanoDiffusion と呼ばれる潜在拡散モデル (LDM) を使用した 360 度の屋内 RGB-D パノラマ アウトペインティング モデルを紹介します。
トレーニング中に RGB と深度パノラマ データの両方を利用する新しいバイモーダル潜在拡散構造を導入します。これは、推論中に深度のない RGB 画像を上書きするのに驚くほどうまく機能します。
さらに、各拡散ノイズ除去ステップ中にプログレッシブ カメラ回転を導入する新しい手法を提案します。これにより、パノラマ ラップアラウンドの一貫性の達成が大幅に向上します。
結果は、当社の PanoDiffusion が、さまざまな種類のマスクに対して多様でよく構造化された結果を生成することで、RGB-D パノラマ アウトペイントの最先端の手法を大幅に上回るだけでなく、高品質の深度パノラマを合成してリアルな 3D 屋内を提供できることを示しています。
モデル。
要約(オリジナル)
Generating complete 360-degree panoramas from narrow field of view images is ongoing research as omnidirectional RGB data is not readily available. Existing GAN-based approaches face some barriers to achieving higher quality output, and have poor generalization performance over different mask types. In this paper, we present our 360-degree indoor RGB-D panorama outpainting model using latent diffusion models (LDM), called PanoDiffusion. We introduce a new bi-modal latent diffusion structure that utilizes both RGB and depth panoramic data during training, which works surprisingly well to outpaint depth-free RGB images during inference. We further propose a novel technique of introducing progressive camera rotations during each diffusion denoising step, which leads to substantial improvement in achieving panorama wraparound consistency. Results show that our PanoDiffusion not only significantly outperforms state-of-the-art methods on RGB-D panorama outpainting by producing diverse well-structured results for different types of masks, but can also synthesize high-quality depth panoramas to provide realistic 3D indoor models.
arxiv情報
著者 | Tianhao Wu,Chuanxia Zheng,Tat-Jen Cham |
発行日 | 2024-02-08 15:37:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google