Make-it-Real: Unleashing Large Multimodal Model’s Ability for Painting 3D Objects with Realistic Materials

要約

物理的にリアルなマテリアルは、さまざまなアプリケーションや照明条件にわたって 3D アセットのリアリズムを強化する上で極めて重要です。
ただし、既存の 3D アセットや生成モデルには、本物のマテリアル プロパティが欠けていることがよくあります。
グラフィック ソフトウェアを使用してマテリアルを手動で割り当てるのは、面倒で時間のかかる作業です。
この論文では、マルチモーダル大規模言語モデル (MLLM)、特に GPT-4V の進歩を活用して、新しいアプローチである Make-it-Real を提示します。 1) GPT-4V がマテリアルを効果的に認識および記述できることを実証し、
詳細なマテリアル ライブラリの構築。
2) GPT-4V は、視覚的な手がかりと階層的なテキスト プロンプトの組み合わせを利用して、マテリアルを正確に識別し、3D オブジェクトの対応するコンポーネントと位置合わせします。
3) 正しく一致したマテリアルは、元の拡散マップに従って新しい SVBRDF マテリアル生成のリファレンスとして細心の注意を払って適用され、視覚的な信頼性が大幅に向上します。
Make-it-Real は、3D コンテンツ作成ワークフローへの合理的な統合を提供し、3D アセットの開発者にとって不可欠なツールとしての有用性を示しています。

要約(オリジナル)

Physically realistic materials are pivotal in augmenting the realism of 3D assets across various applications and lighting conditions. However, existing 3D assets and generative models often lack authentic material properties. Manual assignment of materials using graphic software is a tedious and time-consuming task. In this paper, we exploit advancements in Multimodal Large Language Models (MLLMs), particularly GPT-4V, to present a novel approach, Make-it-Real: 1) We demonstrate that GPT-4V can effectively recognize and describe materials, allowing the construction of a detailed material library. 2) Utilizing a combination of visual cues and hierarchical text prompts, GPT-4V precisely identifies and aligns materials with the corresponding components of 3D objects. 3) The correctly matched materials are then meticulously applied as reference for the new SVBRDF material generation according to the original diffuse map, significantly enhancing their visual authenticity. Make-it-Real offers a streamlined integration into the 3D content creation workflow, showcasing its utility as an essential tool for developers of 3D assets.

arxiv情報

著者 Ye Fang,Zeyi Sun,Tong Wu,Jiaqi Wang,Ziwei Liu,Gordon Wetzstein,Dahua Lin
発行日 2024-04-25 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク