MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

要約

オープンワールド 3D 再構成モデ​​ルは、最近大きな注目を集めています。
ただし、十分な 3D 誘導バイアスがないと、既存の方法では通常、高価なトレーニング コストがかかり、高品質の 3D メッシュを抽出するのが困難になります。
この研究では、3D ネイティブ構造、入力ガイダンス、トレーニング監視を明示的に活用するスパース ビュー再構成モデ​​ルである MeshFormer を紹介します。
具体的には、トリプレーン表現を使用する代わりに、特徴を 3D スパース ボクセルに保存し、トランスフォーマーと 3D 畳み込みを組み合わせて、明示的な 3D 構造と射影バイアスを活用します。
スパース ビュー RGB 入力に加えて、ネットワークが入力を受け取り、対応する法線マップを生成する必要があります。
入力法線マップは 2D 拡散モデルによって予測でき、ジオメトリの学習のガイダンスと洗練に大きく役立ちます。
さらに、符号付き距離関数 (SDF) の監視とサーフェス レンダリングを組み合わせることで、複雑な多段階のトレーニング プロセスを必要とせずに、高品質のメッシュを生成する方法を直接学習します。
これらの明示的な 3D バイアスを組み込むことで、MeshFormer を効率的にトレーニングし、きめの細かい幾何学的詳細を備えた高品質のテクスチャ メッシュを提供できます。
また、2D 拡散モデルと統合して、単一画像から 3D へのタスクやテキストから 3D へのタスクを高速に実行することもできます。
プロジェクトページ:https://meshformer3d.github.io

要約(オリジナル)

Open-world 3D reconstruction models have recently garnered significant attention. However, without sufficient 3D inductive bias, existing methods typically entail expensive training costs and struggle to extract high-quality 3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction model that explicitly leverages 3D native structure, input guidance, and training supervision. Specifically, instead of using a triplane representation, we store features in 3D sparse voxels and combine transformers with 3D convolutions to leverage an explicit 3D structure and projective bias. In addition to sparse-view RGB input, we require the network to take input and generate corresponding normal maps. The input normal maps can be predicted by 2D diffusion models, significantly aiding in the guidance and refinement of the geometry’s learning. Moreover, by combining Signed Distance Function (SDF) supervision with surface rendering, we directly learn to generate high-quality meshes without the need for complex multi-stage training processes. By incorporating these explicit 3D biases, MeshFormer can be trained efficiently and deliver high-quality textured meshes with fine-grained geometric details. It can also be integrated with 2D diffusion models to enable fast single-image-to-3D and text-to-3D tasks. Project page: https://meshformer3d.github.io

arxiv情報

著者 Minghua Liu,Chong Zeng,Xinyue Wei,Ruoxi Shi,Linghao Chen,Chao Xu,Mengqi Zhang,Zhaoning Wang,Xiaoshuai Zhang,Isabella Liu,Hongzhi Wu,Hao Su
発行日 2024-08-19 17:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク