Painting 3D Nature in 2D: View Synthesis of Natural Scenes from a Single Semantic Mask

要約

インターネットからの単一画像のコレクションでトレーニングされた、自然シーンのマルチビューの一貫したカラー画像を合成するための入力として単一のセマンティック マスクを使用する新しいアプローチを紹介します。
3D 対応の画像合成に関する以前の作業では、マルチビューの監視または特定のクラスのオブジェクトについてカテゴリ レベルの事前学習が必要であり、自然なシーンではほとんど機能しません。
この困難な問題を解決するための重要なアイデアは、セマンティック フィールドを中間表現として使用することです。これは、入力セマンティック マスクから再構築し、市販のセマンティック イメージ合成モデルを使用してラディアンス フィールドに変換するのが容易です。
実験では、私たちの方法がベースライン方法よりも優れており、さまざまな自然シーンのフォトリアリスティックでマルチビューの一貫したビデオを生成することが示されています。

要約(オリジナル)

We introduce a novel approach that takes a single semantic mask as input to synthesize multi-view consistent color images of natural scenes, trained with a collection of single images from the Internet. Prior works on 3D-aware image synthesis either require multi-view supervision or learning category-level prior for specific classes of objects, which can hardly work for natural scenes. Our key idea to solve this challenging problem is to use a semantic field as the intermediate representation, which is easier to reconstruct from an input semantic mask and then translate to a radiance field with the assistance of off-the-shelf semantic image synthesis models. Experiments show that our method outperforms baseline methods and produces photorealistic, multi-view consistent videos of a variety of natural scenes.

arxiv情報

著者 Shangzhan Zhang,Sida Peng,Tianrun Chen,Linzhan Mou,Haotong Lin,Kaicheng Yu,Yiyi Liao,Xiaowei Zhou
発行日 2023-02-14 17:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク