DiMeR: Disentangled Mesh Reconstruction Model

要約

大規模な3Dデータセットの出現により、大規模な再建モデル(LRM)などのフィードフォワード3D生成モデルは、大きな注目を集め、顕著な成功を達成しました。
ただし、RGB画像はしばしば競合するトレーニング目標につながり、幾何学の再構築に必要な明確さを欠いていることがわかります。
この論文では、メッシュの再構成に関連する帰納的バイアスを再検討し、スパースビューメッシュ再構成のための新しい解きだめのデュアルストリームフィードフォワードモデルであるダイマーを導入します。
重要なアイデアは、入力とフレームワークの両方をジオメトリパーツとテクスチャパーツに解くことで、それにより、Occamのカミソリの原則に従って各部分のトレーニングの難易度を減らすことです。
通常のマップがジオメトリと厳密に一致し、表面の変動を正確にキャプチャしていることを考えると、通常のマップをジオメトリ分岐の排他的入力として利用して、ネットワークの入力と出力の複雑さを減らします。
さらに、メッシュ抽出アルゴリズムを改善して、3Dグラウンドトゥルースの監督を導入します。
テクスチャブランチについては、RGB画像を入力として使用して、テクスチャメッシュを取得します。
全体として、Dimerは、スパースビューの再構築、シングルイメージから3D、テキストから3Dなど、さまざまなタスクにわたって堅牢な機能を実証しています。
多数の実験により、ダイマーは以前の方法を大幅に上回り、GSOおよびOmniobject3Dデータセットの面取り距離で30%以上の改善を達成することが示されています。

要約(オリジナル)

With the advent of large-scale 3D datasets, feed-forward 3D generative models, such as the Large Reconstruction Model (LRM), have gained significant attention and achieved remarkable success. However, we observe that RGB images often lead to conflicting training objectives and lack the necessary clarity for geometry reconstruction. In this paper, we revisit the inductive biases associated with mesh reconstruction and introduce DiMeR, a novel disentangled dual-stream feed-forward model for sparse-view mesh reconstruction. The key idea is to disentangle both the input and framework into geometry and texture parts, thereby reducing the training difficulty for each part according to the Principle of Occam’s Razor. Given that normal maps are strictly consistent with geometry and accurately capture surface variations, we utilize normal maps as exclusive input for the geometry branch to reduce the complexity between the network’s input and output. Moreover, we improve the mesh extraction algorithm to introduce 3D ground truth supervision. As for texture branch, we use RGB images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust capabilities across various tasks, including sparse-view reconstruction, single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR significantly outperforms previous methods, achieving over 30% improvement in Chamfer Distance on the GSO and OmniObject3D dataset.

arxiv情報

著者 Lutao Jiang,Jiantao Lin,Kanghao Chen,Wenhang Ge,Xin Yang,Yifan Jiang,Yuanhuiyi Lyu,Xu Zheng,Yingcong Chen
発行日 2025-04-24 15:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク