IPO-LDM: Depth-aided 360-degree Indoor RGB Panorama Outpainting via Latent Diffusion Model

要約

全方向性 RGB データがすぐに入手できないため、狭い視野の画像から完全な 360 度のパノラマを生成する研究が進行中です。
既存の GAN ベースのアプローチは、より高品質の出力を達成するにはいくつかの障壁に直面しており、さまざまなマスク タイプに対する汎化パフォーマンスが劣っています。
このペーパーでは、IPO-LDM と呼ばれる潜在拡散モデル (LDM) を使用した 360 度の屋内 RGB パノラマ アウトペインティング モデルを紹介します。
トレーニング中に RGB と深度パノラマ データの両方を利用する新しいバイモーダル潜在拡散構造を導入しますが、推論中に通常の深度フリー RGB 画像を上書きするのに驚くほどうまく機能します。
さらに、各拡散ノイズ除去ステップ中にプログレッシブ カメラ回転を導入する新しい手法を提案します。これにより、パノラマ ラップアラウンドの一貫性の達成が大幅に向上します。
結果は、当社の IPO-LDM が RGB パノラマ アウトペインティングにおいて最先端の手法を大幅に上回るだけでなく、さまざまな種類のマスクに対して複数の多様でよく構造化された結果を生成できることを示しています。

要約(オリジナル)

Generating complete 360-degree panoramas from narrow field of view images is ongoing research as omnidirectional RGB data is not readily available. Existing GAN-based approaches face some barriers to achieving higher quality output, and have poor generalization performance over different mask types. In this paper, we present our 360-degree indoor RGB panorama outpainting model using latent diffusion models (LDM), called IPO-LDM. We introduce a new bi-modal latent diffusion structure that utilizes both RGB and depth panoramic data during training, but works surprisingly well to outpaint normal depth-free RGB images during inference. We further propose a novel technique of introducing progressive camera rotations during each diffusion denoising step, which leads to substantial improvement in achieving panorama wraparound consistency. Results show that our IPO-LDM not only significantly outperforms state-of-the-art methods on RGB panorama outpainting, but can also produce multiple and diverse well-structured results for different types of masks.

arxiv情報

著者 Tianhao Wu,Chuanxia Zheng,Tat-Jen Cham
発行日 2023-07-07 04:37:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク