Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation

要約

テキストから画像への拡散モデルの進歩により、3Dコンテンツの高速作成が大きく進歩している。一般的なアプローチの1つは、オブジェクトのマルチビュー画像のセットを生成し、それを3Dモデルに再構成することです。しかし、このアプローチでは、オブジェクトのネイティブな3D表現を使用しないため、幾何学的なアーチファクトが発生しやすく、制御性や操作性が制限されます。別のアプローチとして、3D表現を直接生成するネイティブ3D生成モデルがある。しかし、これらのモデルは一般的に解像度に限界があり、その結果、3Dオブジェクトの品質が低下する。本研究では、3D表現を直接生成する手法と、マルチビュー画像から3Dオブジェクトを再構成する手法との間の品質ギャップを埋める。Sharp-Itと呼ばれるマルチビューからマルチビューへの拡散モデルを導入し、低品質のオブジェクトからレンダリングされた3D一貫性のあるマルチビュー画像の集合を受け取り、その幾何学的詳細とテクスチャを豊かにする。この拡散モデルは、生成されたビュー間で特徴を共有するという意味で、マルチビュー集合に対して並列に動作する。そして、エンリッチされたマルチビューセットから高品質の3Dモデルを再構築することができる。2Dアプローチと3Dアプローチの両方の利点を活用することで、我々の手法は、高品質な3Dコンテンツ作成のための効率的で制御可能な手法を提供する。我々は、Sharp-Itが、高品質な資産を獲得しながら、高速な合成、編集、制御された生成など、様々な3Dアプリケーションを可能にすることを実証する。

要約(オリジナル)

Advancements in text-to-image diffusion models have led to significant progress in fast 3D content creation. One common approach is to generate a set of multi-view images of an object, and then reconstruct it into a 3D model. However, this approach bypasses the use of a native 3D representation of the object and is hence prone to geometric artifacts and limited in controllability and manipulation capabilities. An alternative approach involves native 3D generative models that directly produce 3D representations. These models, however, are typically limited in their resolution, resulting in lower quality 3D objects. In this work, we bridge the quality gap between methods that directly generate 3D representations and ones that reconstruct 3D objects from multi-view images. We introduce a multi-view to multi-view diffusion model called Sharp-It, which takes a 3D consistent set of multi-view images rendered from a low-quality object and enriches its geometric details and texture. The diffusion model operates on the multi-view set in parallel, in the sense that it shares features across the generated views. A high-quality 3D model can then be reconstructed from the enriched multi-view set. By leveraging the advantages of both 2D and 3D approaches, our method offers an efficient and controllable method for high-quality 3D content creation. We demonstrate that Sharp-It enables various 3D applications, such as fast synthesis, editing, and controlled generation, while attaining high-quality assets.

arxiv情報

著者 Yiftach Edelstein,Or Patashnik,Dana Cohen-Bar,Lihi Zelnik-Manor
発行日 2024-12-03 17:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク