要約
オブジェクトの 3D 生成モデルにより、3D 制御による写真のようにリアルな画像合成が可能になります。
既存の方法は、シーンの構成的な側面を無視して、シーンをグローバル シーン表現としてモデル化します。
合成推論は、一般化可能な 3D 推論を可能にするだけでなく、さまざまな編集アプリケーションを可能にします。
この論文では、オブジェクトの各セマンティック部分が、実際の 2D データのみから学習された独立した 3D 表現として表現される構成生成モデルを提示します。
グローバル生成モデル (GAN) から始めて、2D セグメンテーション マスクからの監視を使用して、それをさまざまなセマンティック部分に分解することを学びます。
次に、一貫したグローバル シーンを作成するために、個別にサンプリングされたパーツを合成する方法を学習します。
オブジェクトの残りの部分を固定したまま、さまざまな部分を個別にサンプリングできます。
さまざまなオブジェクトとパーツでこの方法を評価し、編集アプリケーションを示します。
要約(オリジナル)
3D generative models of objects enable photorealistic image synthesis with 3D control. Existing methods model the scene as a global scene representation, ignoring the compositional aspect of the scene. Compositional reasoning can enable a wide variety of editing applications, in addition to enabling generalizable 3D reasoning. In this paper, we present a compositional generative model, where each semantic part of the object is represented as an independent 3D representation learned from only in-the-wild 2D data. We start with a global generative model (GAN) and learn to decompose it into different semantic parts using supervision from 2D segmentation masks. We then learn to composite independently sampled parts in order to create coherent global scenes. Different parts can be independently sampled while keeping the rest of the object fixed. We evaluate our method on a wide variety of objects and parts and demonstrate editing applications.
arxiv情報
著者 | Mallikarjun BR,Ayush Tewari,Xingang Pan,Mohamed Elgharib,Christian Theobalt |
発行日 | 2022-10-31 14:10:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google