要約
インターネットからの単一画像のコレクションでトレーニングされた、自然シーンのマルチビューの一貫したカラー画像を合成するための入力として単一のセマンティック マスクを使用する新しいアプローチを紹介します。
3D 対応の画像合成に関する以前の作業では、マルチビューの監視または特定のクラスのオブジェクトについてカテゴリ レベルの事前学習が必要であり、自然なシーンではほとんど機能しません。
この困難な問題を解決するための重要なアイデアは、セマンティック フィールドを中間表現として使用することです。これは、入力セマンティック マスクから再構築し、市販のセマンティック イメージ合成モデルを使用してラディアンス フィールドに変換するのが容易です。
実験では、私たちの方法がベースライン方法よりも優れており、さまざまな自然シーンのフォトリアリスティックでマルチビューの一貫したビデオを生成することが示されています。
要約(オリジナル)
We introduce a novel approach that takes a single semantic mask as input to synthesize multi-view consistent color images of natural scenes, trained with a collection of single images from the Internet. Prior works on 3D-aware image synthesis either require multi-view supervision or learning category-level prior for specific classes of objects, which can hardly work for natural scenes. Our key idea to solve this challenging problem is to use a semantic field as the intermediate representation, which is easier to reconstruct from an input semantic mask and then translate to a radiance field with the assistance of off-the-shelf semantic image synthesis models. Experiments show that our method outperforms baseline methods and produces photorealistic, multi-view consistent videos of a variety of natural scenes.
arxiv情報
著者 | Shangzhan Zhang,Sida Peng,Tianrun Chen,Linzhan Mou,Haotong Lin,Kaicheng Yu,Yiyi Liao,Xiaowei Zhou |
発行日 | 2023-02-14 17:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google