3D Mesh Editing using Masked LRMs

要約

我々は、多視点画像からの 3D 再構築における最近の進歩に基づいて、メッシュ形状編集に対する新しいアプローチを提案します。
形状編集を条件付き再構成問題として定式化します。この問題では、モデルは、条件付き信号からジオメトリを生成する必要がある、指定された 3D 領域を除いて入力形状を再構成する必要があります。
この目的を達成するために、ランダムに生成された 3D オクルージョンからレンダリングされたマルチビューの一貫したマスクを使用し、条件付き信号として 1 つのクリーンな視点を使用して、マスクされた再構成のための条件付き大規模再構成モデ​​ル (LRM) をトレーニングします。
推論中に、編集する 3D 領域を手動で定義し、その領域を埋めるために標準的な視点から編集された画像を提供します。
たった 1 回の順方向パスで、私たちの方法が SoTA と同等の再構成機能を通じてマスクされていない領域の入力ジオメトリを保存するだけでなく、過去の単一の画像ガイダンスからさまざまなメッシュ編集を実行するのに十分な表現力があることを実証します。
これらの作品は、競合する過去の作品よりも 10 倍高速である一方で、苦戦しています。

要約(オリジナル)

We present a novel approach to mesh shape editing, building on recent progress in 3D reconstruction from multi-view images. We formulate shape editing as a conditional reconstruction problem, where the model must reconstruct the input shape with the exception of a specified 3D region, in which the geometry should be generated from the conditional signal. To this end, we train a conditional Large Reconstruction Model (LRM) for masked reconstruction, using multi-view consistent masks rendered from a randomly generated 3D occlusion, and using one clean viewpoint as the conditional signal. During inference, we manually define a 3D region to edit and provide an edited image from a canonical viewpoint to fill in that region. We demonstrate that, in just a single forward pass, our method not only preserves the input geometry in the unmasked region through reconstruction capabilities on par with SoTA, but is also expressive enough to perform a variety of mesh edits from a single image guidance that past works struggle with, while being 10x faster than the top-performing competing prior work.

arxiv情報

著者 Will Gao,Dilin Wang,Yuchen Fan,Aljaz Bozic,Tuur Stuyck,Zhengqin Li,Zhao Dong,Rakesh Ranjan,Nikolaos Sarafianos
発行日 2024-12-11 18:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク