要約
単一の画像からオープンセット ノベル ビュー合成 (NVS) 用に設計されたシンプルなアプローチである Free3D を紹介します。
Zero-1-to-3 と同様に、一般化のために事前トレーニングされた 2D 画像ジェネレーターから開始し、NVS 用に微調整します。
最近の同時作業と比較すると、遅くてメモリを消費する明示的な 3D 表現に頼ったり、追加の 3D ネットワークをトレーニングしたりすることなく、大幅な改善が得られます。
これは、新しいピクセルごとのレイコンディショニング正規化 (RCN) レイヤーを介してターゲット カメラのポーズをより適切にエンコードすることで実現されます。
後者は、各ピクセルに特定の視線方向を伝えることによって、基礎となる 2D 画像ジェネレーターに姿勢情報を注入します。
また、軽量のマルチビュー アテンション レイヤーとマルチビュー ノイズ シェアリングにより、マルチビューの一貫性も向上します。
私たちは、Objaverse データセットで Free3D をトレーニングし、OminiObject3D や GSO を含むいくつかの新しいデータセットのさまざまな新しいカテゴリに対する優れた一般化を実証します。
私たちのシンプルで効果的なアプローチが確固たるベースラインとして機能し、より正確な姿勢を実現する NVS での将来の研究に役立つことを願っています。
プロジェクト ページは https://chuanxiaz.com/free3d/ でご覧いただけます。
要約(オリジナル)
We introduce Free3D, a simple approach designed for open-set novel view synthesis (NVS) from a single image. Similar to Zero-1-to-3, we start from a pre-trained 2D image generator for generalization, and fine-tune it for NVS. Compared to recent and concurrent works, we obtain significant improvements without resorting to an explicit 3D representation, which is slow and memory-consuming or training an additional 3D network. We do so by encoding better the target camera pose via a new per-pixel ray conditioning normalization (RCN) layer. The latter injects pose information in the underlying 2D image generator by telling each pixel its specific viewing direction. We also improve multi-view consistency via a light-weight multi-view attention layer and multi-view noise sharing. We train Free3D on the Objaverse dataset and demonstrate excellent generalization to various new categories in several new datasets, including OminiObject3D and GSO. We hope our simple and effective approach will serve as a solid baseline and help future research in NVS with more accuracy pose. The project page is available at https://chuanxiaz.com/free3d/.
arxiv情報
著者 | Chuanxia Zheng,Andrea Vedaldi |
発行日 | 2023-12-07 18:59:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google