要約
ほとんどの text-to-image ジェネレーターは、数十億の画像でトレーニングされた既製の text-to-image モデルに基づいて構築されています。
彼らはスコア蒸留サンプリング (SDS) の変種を使用しますが、これは遅く、やや不安定で、アーティファクトが発生しやすいものです。
軽減策は、マルチビュー対応になるように 2D ジェネレーターを微調整することです。これにより、蒸留を支援したり、再構成ネットワークと組み合わせて 3D オブジェクトを直接出力したりできます。
このペーパーでは、テキストから 3D モデルへの設計空間をさらに調査します。
画像ジェネレーターの代わりにビデオを考慮することで、マルチビューの生成を大幅に改善しました。
ガウス スプラッティングを使用して堅牢な画像ベースの損失を最適化できる 3D 再構成アルゴリズムと組み合わせることで、生成されたビューから高品質の 3D 出力を直接生成します。
私たちの新しい手法である IM-3D は、2D ジェネレーター ネットワークの評価数を 10 ~ 100 分の 1 に減らし、その結果、パイプラインの効率が大幅に向上し、品質が向上し、幾何学的不一致が減少し、使用可能な 3D アセットの収量が向上します。
要約(オリジナル)
Most text-to-3D generators build upon off-the-shelf text-to-image models trained on billions of images. They use variants of Score Distillation Sampling (SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation is to fine-tune the 2D generator to be multi-view aware, which can help distillation or can be combined with reconstruction networks to output 3D objects directly. In this paper, we further explore the design space of text-to-3D models. We significantly improve multi-view generation by considering video instead of image generators. Combined with a 3D reconstruction algorithm which, by using Gaussian splatting, can optimize a robust image-based loss, we directly produce high-quality 3D outputs from the generated views. Our new method, IM-3D, reduces the number of evaluations of the 2D generator network 10-100x, resulting in a much more efficient pipeline, better quality, fewer geometric inconsistencies, and higher yield of usable 3D assets.
arxiv情報
著者 | Luke Melas-Kyriazi,Iro Laina,Christian Rupprecht,Natalia Neverova,Andrea Vedaldi,Oran Gafni,Filippos Kokkinos |
発行日 | 2024-02-13 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google