要約
適切に展開された UV を取得することが難しいため、セマンティック UV マップを使用して 3D 人間をテクスチャリングすることは依然として課題です。
大規模なテキストからイメージへの (T2I) モデルを使用したマルチビュー レンダリングの監視におけるテキストから 3D への最近の進歩にも関わらず、生成速度、テキストの一貫性、およびテクスチャの品質に関する問題は依然として残っており、その結果、既存のデータセット間でデータが不足しています。
私たちは、初のゼロショット マルチモーダル高忠実度 3D ヒューマン テクスチャ生成モデルである TexDreamer を紹介します。
効率的なテクスチャ適応微調整戦略を利用して、元の一般化機能を維持しながら、大規模な T2I モデルをセマンティック UV 構造に適応させます。
新しい特徴変換モジュールを活用することで、トレーニングされたモデルは数秒以内にテキストまたは画像から高忠実度の 3D ヒューマン テクスチャを生成できます。
さらに、テキスト説明付きの 50,000 個の高忠実度テクスチャが含まれる最大の高解像度 (1024 X 1024) 3D ヒューマン テクスチャ データセットである ArticuLated humAn textureS (ATLAS) を紹介します。
要約(オリジナル)
Texturing 3D humans with semantic UV maps remains a challenge due to the difficulty of acquiring reasonably unfolded UV. Despite recent text-to-3D advancements in supervising multi-view renderings using large text-to-image (T2I) models, issues persist with generation speed, text consistency, and texture quality, resulting in data scarcity among existing datasets. We present TexDreamer, the first zero-shot multimodal high-fidelity 3D human texture generation model. Utilizing an efficient texture adaptation finetuning strategy, we adapt large T2I model to a semantic UV structure while preserving its original generalization capability. Leveraging a novel feature translator module, the trained model is capable of generating high-fidelity 3D human textures from either text or image within seconds. Furthermore, we introduce ArTicuLated humAn textureS (ATLAS), the largest high-resolution (1024 X 1024) 3D human texture dataset which contains 50k high-fidelity textures with text descriptions.
arxiv情報
著者 | Yufei Liu,Junwei Zhu,Junshu Tang,Shijie Zhang,Jiangning Zhang,Weijian Cao,Chengjie Wang,Yunsheng Wu,Dongjin Huang |
発行日 | 2024-03-19 17:02:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google