要約
我々は、既存の方法の限界に対処し、単一の画像から多様で高品質の 3D オブジェクトを生成できる、ImageNet の新しい 3D 生成方法である Generative 3D Reconstruction (G3DR) を紹介します。
私たちのフレームワークの中心となるのは、幾何学的忠実度の高いシーンの生成を可能にする新しい深度正則化技術です。
また、G3DR は、CLIP などの事前トレーニング済み言語視覚モデルを活用して、新しいビューでの再構成を可能にし、世代の視覚的リアリズムを向上させます。
さらに、G3DR は、世代の品質をさらに向上させるために、シンプルだが効果的なサンプリング手順を設計します。
G3DR は、クラスまたはテキストの条件付けに基づいて、多様で効率的な 3D アセットの生成を提供します。
そのシンプルさにもかかわらず、G3DR は最先端の手法を上回ることができ、トレーニング時間の半分しか必要とせずに、知覚メトリクスで最大 22%、ジオメトリ スコアで 90% 向上しています。
コードは https://github.com/preddy5/G3DR で入手できます。
要約(オリジナル)
We introduce a novel 3D generative method, Generative 3D Reconstruction (G3DR) in ImageNet, capable of generating diverse and high-quality 3D objects from single images, addressing the limitations of existing methods. At the heart of our framework is a novel depth regularization technique that enables the generation of scenes with high-geometric fidelity. G3DR also leverages a pretrained language-vision model, such as CLIP, to enable reconstruction in novel views and improve the visual realism of generations. Additionally, G3DR designs a simple but effective sampling procedure to further improve the quality of generations. G3DR offers diverse and efficient 3D asset generation based on class or text conditioning. Despite its simplicity, G3DR is able to beat state-of-theart methods, improving over them by up to 22% in perceptual metrics and 90% in geometry scores, while needing only half of the training time. Code is available at https://github.com/preddy5/G3DR
arxiv情報
著者 | Pradyumna Reddy,Ismail Elezi,Jiankang Deng |
発行日 | 2024-03-08 16:55:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google