要約
3D 生成方法は、拡散画像事前分布を活用した視覚的に説得力のある結果を示しています。
ただし、多くの場合、現実的な幾何学的詳細を生成できず、アルベド マップで過度に滑らかなサーフェスや幾何学的詳細が不正確にベイク処理されてしまいます。
これに対処するために、生成された 3D アセットの幾何学的詳細を改善するための追加モダリティとしてタッチを組み込んだ新しい方法を導入します。
私たちは、視覚と触覚の両方の領域における 2D 拡散モデルの事前分布に基づいて、視覚と触覚のテクスチャを合成する軽量 3D テクスチャ フィールドを設計します。
高解像度の触覚法線に基づいて視覚的なテクスチャの生成を条件付けし、カスタマイズされた TextureDreambooth を使用してパッチベースの触覚テクスチャの改良をガイドします。
さらに、さまざまな領域にわたって異なるテクスチャを合成できるマルチパート生成パイプラインを紹介します。
私たちの知る限り、当社は高解像度の触覚センシングを活用して 3D 生成タスクの幾何学的詳細を強化した最初の企業です。
テキストから 3D への設定と画像から 3D への設定の両方でメソッドを評価します。
私たちの実験は、私たちの方法が視覚と触覚の 2 つのモダリティ間の正確な位置合わせを維持しながら、カスタマイズされた現実的な微細な幾何学模様のテクスチャを提供することを示しています。
要約(オリジナル)
3D generation methods have shown visually compelling results powered by diffusion image priors. However, they often fail to produce realistic geometric details, resulting in overly smooth surfaces or geometric details inaccurately baked in albedo maps. To address this, we introduce a new method that incorporates touch as an additional modality to improve the geometric details of generated 3D assets. We design a lightweight 3D texture field to synthesize visual and tactile textures, guided by 2D diffusion model priors on both visual and tactile domains. We condition the visual texture generation on high-resolution tactile normals and guide the patch-based tactile texture refinement with a customized TextureDreambooth. We further present a multi-part generation pipeline that enables us to synthesize different textures across various regions. To our knowledge, we are the first to leverage high-resolution tactile sensing to enhance geometric details for 3D generation tasks. We evaluate our method in both text-to-3D and image-to-3D settings. Our experiments demonstrate that our method provides customized and realistic fine geometric textures while maintaining accurate alignment between two modalities of vision and touch.
arxiv情報
著者 | Ruihan Gao,Kangle Deng,Gengshan Yang,Wenzhen Yuan,Jun-Yan Zhu |
発行日 | 2024-12-09 18:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google