MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets

要約

強力な画像拡散モデルを活用した最近の研究では、テキストまたは視覚的なガイダンスから 3D オブジェクトを自動作成することが可能になりました。
これらの方法は、さまざまなビューにわたってスコア蒸留サンプリング (SDS) を繰り返し実行することにより、3D 空間の前に 2D 生成を持ち上げることに成功します。
ただし、このような 2D 生成イメージは、照明と影の効果をテクスチャに事前に焼き付けます。
その結果、SDS によって最適化されたマテリアル マップには、必然的に誤った相関コンポーネントが含まれます。
正確なマテリアル定義がないため、新しいシーンで生成されたアセットを合理的に再照明することが不可能になり、下流のシナリオでの適用が制限されます。
対照的に、人間は、オブジェクトの外観と意味論からオブジェクトの材質を推測することで、この曖昧さを難なく回避できます。
この洞察に動機付けられて、私たちは、2D セマンティック事前から基礎となるマテリアルを推測するための 3D アセット マテリアル生成フレームワークである MaterialsSeg3D を提案します。
このような事前モデルに基づいて、3D 空間でマテリアルを解析するメカニズムを考案します。
私たちは UV スタックを維持しており、その各マップは特定の視点から投影されていません。
すべての視点を走査した後、重み付け投票スキームを通じてスタックを融合し、領域統合を使用してオブジェクト部分の一貫性を確保します。
事前のセマンティクスの学習を促進するために、豊富な画像、多様なカテゴリ、正確な注釈を特徴とする、具体化された個別オブジェクト (MIO) という名前のマテリアル データセットを収集します。
広範な定量的および定性的実験により、私たちの方法の有効性が実証されています。

要約(オリジナル)

Driven by powerful image diffusion models, recent research has achieved the automatic creation of 3D objects from textual or visual guidance. By performing score distillation sampling (SDS) iteratively across different views, these methods succeed in lifting 2D generative prior to the 3D space. However, such a 2D generative image prior bakes the effect of illumination and shadow into the texture. As a result, material maps optimized by SDS inevitably involve spurious correlated components. The absence of precise material definition makes it infeasible to relight the generated assets reasonably in novel scenes, which limits their application in downstream scenarios. In contrast, humans can effortlessly circumvent this ambiguity by deducing the material of the object from its appearance and semantics. Motivated by this insight, we propose MaterialSeg3D, a 3D asset material generation framework to infer underlying material from the 2D semantic prior. Based on such a prior model, we devise a mechanism to parse material in 3D space. We maintain a UV stack, each map of which is unprojected from a specific viewpoint. After traversing all viewpoints, we fuse the stack through a weighted voting scheme and then employ region unification to ensure the coherence of the object parts. To fuel the learning of semantics prior, we collect a material dataset, named Materialized Individual Objects (MIO), which features abundant images, diverse categories, and accurate annotations. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our method.

arxiv情報

著者 Zeyu Li,Ruitong Gan,Chuanchen Luo,Yuxi Wang,Jiaheng Liu,Ziwei Zhu Man Zhang,Qing Li,Xucheng Yin,Zhaoxiang Zhang,Junran Peng
発行日 2024-05-16 14:09:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク