要約
ジェネレーティブ モデリングの最近のトレンドは、2D 画像コレクションから 3D 対応のジェネレーターを構築することです。
3D バイアスを誘発するために、このようなモデルは通常、ボリューム レンダリングに依存していますが、これは高解像度での採用にはコストがかかります。
過去数か月の間に、別の 2D デコーダーをトレーニングして、純粋な 3D ジェネレーターから生成された低解像度画像 (または特徴テンソル) をアップサンプリングすることによって、このスケーリングの問題に対処する 10 以上の研究が登場しました。
ただし、このソリューションには代償が伴います。マルチビューの一貫性が失われるだけでなく (つまり、カメラが移動すると形状とテクスチャが変化します)、ジオメトリの学習も忠実度が低くなります。
この作業では、モデルをパッチごとに単純にトレーニングするというまったく異なるルートに従うことで、SotA 画質の高解像度 3D ジェネレーターを取得できることを示します。
この最適化スキームを再検討し、2 つの方法で改善します。
まず、位置とスケールを認識するディスクリミネーターを設計して、さまざまな比率と空間位置のパッチを処理します。
次に、アニールされたベータ分布に基づいてパッチ サンプリング戦略を変更して、トレーニングを安定させ、収束を加速します。
結果として得られた EpiGRAF という名前のモデルは、効率的で高解像度の純粋な 3D ジェネレーターであり、$256^2$ および $512^2$ の解像度で 4 つのデータセット (この作業で導入された 2 つ) でテストします。
最先端の画質、高忠実度のジオメトリを取得し、アップサンプラー ベースの対応物よりも ${\approx} 2.5 \times$ 高速にトレーニングします。
プロジェクトのウェブサイト: https://universome.github.io/epigraf.
要約(オリジナル)
A very recent trend in generative modeling is building 3D-aware generators from 2D image collections. To induce the 3D bias, such models typically rely on volumetric rendering, which is expensive to employ at high resolutions. During the past months, there appeared more than 10 works that address this scaling issue by training a separate 2D decoder to upsample a low-resolution image (or a feature tensor) produced from a pure 3D generator. But this solution comes at a cost: not only does it break multi-view consistency (i.e. shape and texture change when the camera moves), but it also learns the geometry in a low fidelity. In this work, we show that it is possible to obtain a high-resolution 3D generator with SotA image quality by following a completely different route of simply training the model patch-wise. We revisit and improve this optimization scheme in two ways. First, we design a location- and scale-aware discriminator to work on patches of different proportions and spatial positions. Second, we modify the patch sampling strategy based on an annealed beta distribution to stabilize training and accelerate the convergence. The resulted model, named EpiGRAF, is an efficient, high-resolution, pure 3D generator, and we test it on four datasets (two introduced in this work) at $256^2$ and $512^2$ resolutions. It obtains state-of-the-art image quality, high-fidelity geometry and trains ${\approx} 2.5 \times$ faster than the upsampler-based counterparts. Project website: https://universome.github.io/epigraf.
arxiv情報
著者 | Ivan Skorokhodov,Sergey Tulyakov,Yiqun Wang,Peter Wonka |
発行日 | 2022-12-15 15:25:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google