SyncDreamer: Generating Multiview-consistent Images from a Single-view Image

要約

本稿では、単視点画像から多視点の一貫性のある画像を生成する、と呼ばれる新しい拡散モデルを紹介します。
最近の研究である Zero123 では、事前学習済みの大規模 2D 拡散モデルを使用して、物体の単一ビュー画像からもっともらしい新しいビューを生成する機能を実証しています。
ただし、生成された画像のジオメトリと色の一貫性を維持することは依然として課題です。
この問題に対処するために、我々は多視点画像の同時確率分布をモデル化する同期多視点拡散モデルを提案し、単一の逆プロセスで多視点の一貫性のある画像の生成を可能にします。
SyncDreamer は、異なるビュー間で対応するフィーチャを相関付ける 3D 対応のフィーチャ アテンション メカニズムを通じて、逆プロセスの各ステップで生成されたすべての画像の中間状態を同期します。
実験の結果、SyncDreamer はさまざまなビューにわたって一貫性の高い画像を生成するため、新規ビューの合成、テキストから 3D、画像から 3D などのさまざまな 3D 生成タスクに適していることがわかりました。

要約(オリジナル)

In this paper, we present a novel diffusion model called that generates multiview-consistent images from a single-view image. Using pretrained large-scale 2D diffusion models, recent work Zero123 demonstrates the ability to generate plausible novel views from a single-view image of an object. However, maintaining consistency in geometry and colors for the generated images remains a challenge. To address this issue, we propose a synchronized multiview diffusion model that models the joint probability distribution of multiview images, enabling the generation of multiview-consistent images in a single reverse process. SyncDreamer synchronizes the intermediate states of all the generated images at every step of the reverse process through a 3D-aware feature attention mechanism that correlates the corresponding features across different views. Experiments show that SyncDreamer generates images with high consistency across different views, thus making it well-suited for various 3D generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.

arxiv情報

著者 Yuan Liu,Cheng Lin,Zijiao Zeng,Xiaoxiao Long,Lingjie Liu,Taku Komura,Wenping Wang
発行日 2024-04-15 10:28:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク