Towards Realistic 3D Embedding via View Alignment

要約

タイトル: 360度の視野自由度を持った3Dオブジェクトを背景画像に埋め込むためのView Alignment GAN

要約:
– GANの最近の進歩により、背景画像に興味深い前景オブジェクトを自動的に埋め込むことにより、自動的な画像合成が実現された。
– 一方、既存の多くの研究は、2次元の画像に前景オブジェクトを取り扱っており、360度の視野自由度を持った3Dモデルに前景オブジェクトを取り扱うことが可能であるが、ほとんど行われていない。
– 本論文では、View Alignment GAN(VA-GAN)と呼ばれる革新的な手法を提案している。この手法は、背景画像に3Dモデルを現実的にかつ自動的に埋め込むことにより、新しい画像を合成する。
– VA-GANは、テキスチャジェネレータと差分ディスクリミネータから構成され、相互接続され、エンドツーエンドでトレーニング可能である。差分ディスクリミネータは、背景画像から幾何学的変換を学習し、現実的なポーズと視点で背景画像に合わせた3Dモデルを合成することを誘導する。
– テキスチャジェネレータは、推定された視点で正確なオブジェクトテクスチャを生成するための新しい視点エンコーディングメカニズムを採用している。
– 2つの合成タスク(KITTIにおける車合成とCityscapesにおける歩行者合成)についての詳細な実験では、VA-GANが既存の最先端の生成手法と比較して、高度な合成品質を定量的・定性的に達成することが示された。

要約(オリジナル)

Recent advances in generative adversarial networks (GANs) have achieved great success in automated image composition that generates new images by embedding interested foreground objects into background images automatically. On the other hand, most existing works deal with foreground objects in two-dimensional (2D) images though foreground objects in three-dimensional (3D) models are more flexible with 360-degree view freedom. This paper presents an innovative View Alignment GAN (VA-GAN) that composes new images by embedding 3D models into 2D background images realistically and automatically. VA-GAN consists of a texture generator and a differential discriminator that are inter-connected and end-to-end trainable. The differential discriminator guides to learn geometric transformation from background images so that the composed 3D models can be aligned with the background images with realistic poses and views. The texture generator adopts a novel view encoding mechanism for generating accurate object textures for the 3D models under the estimated views. Extensive experiments over two synthesis tasks (car synthesis with KITTI and pedestrian synthesis with Cityscapes) show that VA-GAN achieves high-fidelity composition qualitatively and quantitatively as compared with state-of-the-art generation methods.

arxiv情報

著者 Changgong Zhang,Fangneng Zhan,Shijian Lu,Feiying Ma,Xuansong Xie
発行日 2023-04-24 12:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク