要約
テキストから画像へのモデルの最近の利用可能性と適応性は、学習されたテキスト事前学習と高品質で高速な生成機能の恩恵を受ける多くの関連分野で新時代を引き起こしました。その 1 つが 3D オブジェクトのテクスチャ生成です。
最近のテクスチャ生成方法は、テキストから画像へのネットワークを使用することで優れた結果を達成していますが、テクスチャ生成を現実世界のアプリケーションに進めるために重要な、グローバルな一貫性、品質、および速度の組み合わせは依然としてとらえどころがありません。
この目的を達成するために、Meta 3D TextureGen を導入します。これは、20 秒未満であらゆる複雑さの任意のジオメトリに対して高品質でグローバルに一貫したテクスチャを生成することを目的とした、2 つの連続したネットワークで構成される新しいフィードフォワード手法です。
私たちの手法は、広範な定性的分析によって実証されているように、2D 空間の 3D セマンティクスに基づいてテキストから画像へのモデルを調整し、それらを完全で高解像度の UV テクスチャ マップに融合することにより、品質と速度において最先端の結果を達成します。
定量的な評価。
さらに、任意の比率でテクスチャをアップスケーリングし、4k ピクセル解像度のテクスチャを生成できるテクスチャ強化ネットワークを導入します。
要約(オリジナル)
The recent availability and adaptability of text-to-image models has sparked a new era in many related domains that benefit from the learned text priors as well as high-quality and fast generation capabilities, one of which is texture generation for 3D objects. Although recent texture generation methods achieve impressive results by using text-to-image networks, the combination of global consistency, quality, and speed, which is crucial for advancing texture generation to real-world applications, remains elusive. To that end, we introduce Meta 3D TextureGen: a new feedforward method comprised of two sequential networks aimed at generating high-quality and globally consistent textures for arbitrary geometries of any complexity degree in less than 20 seconds. Our method achieves state-of-the-art results in quality and speed by conditioning a text-to-image model on 3D semantics in 2D space and fusing them into a complete and high-resolution UV texture map, as demonstrated by extensive qualitative and quantitative evaluations. In addition, we introduce a texture enhancement network that is capable of up-scaling any texture by an arbitrary ratio, producing 4k pixel resolution textures.
arxiv情報
著者 | Raphael Bensadoun,Yanir Kleiman,Idan Azuri,Omri Harosh,Andrea Vedaldi,Natalia Neverova,Oran Gafni |
発行日 | 2024-07-02 17:04:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google