Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention

要約

本稿では、単視点画像から高解像度の多視点画像を生成する新しい多視点拡散手法 Era3D を紹介します。
マルチビュー生成の大幅な進歩にも関わらず、既存の方法は依然としてカメラ事前の不一致、非効率性、低解像度の問題に悩まされており、結果として低品質のマルチビュー画像が得られます。
具体的には、これらのメソッドは、入力画像が事前定義されたカメラ タイプに準拠している必要があることを前提としています。
固定焦点距離の透視カメラなので、仮定が崩れると形状が歪んでしまいます。
さらに、画像全体または高密度のマルチビュー アテンションを使用すると、画像解像度が増加するにつれて計算の複雑さが指数関数的に爆発し、その結果、トレーニング コストが法外に高価になります。
仮定と現実の間のギャップを埋めるために、Era3D はまず、入力画像の焦点距離と高度を推定する拡散ベースのカメラ予測モジュールを提案します。これにより、私たちの方法で形状の歪みのない画像を生成できるようになります。
さらに、行方向のアテンションと呼ばれるシンプルだが効率的なアテンション レイヤーを使用して、マルチビュー拡散におけるエピポーラ 事前分布を強制し、効率的なクロスビュー情報融合を促進します。
その結果、Era3D は、最先端の方法と比較して、計算の複雑さを 12 分の 1 に削減しながら、最大 512*512 の解像度を持つ高品質のマルチビュー画像を生成します。
包括的な実験により、Era3D は多様な単一ビュー入力画像から高品質で詳細な 3D メッシュを再構築でき、ベースラインのマルチビュー拡散法を大幅に上回るパフォーマンスを示すことが実証されました。
プロジェクトページ: https://penghtyx.github.io/Era3D/。

要約(オリジナル)

In this paper, we introduce Era3D, a novel multiview diffusion method that generates high-resolution multiview images from a single-view image. Despite significant advancements in multiview generation, existing methods still suffer from camera prior mismatch, inefficacy, and low resolution, resulting in poor-quality multiview images. Specifically, these methods assume that the input images should comply with a predefined camera type, e.g. a perspective camera with a fixed focal length, leading to distorted shapes when the assumption fails. Moreover, the full-image or dense multiview attention they employ leads to an exponential explosion of computational complexity as image resolution increases, resulting in prohibitively expensive training costs. To bridge the gap between assumption and reality, Era3D first proposes a diffusion-based camera prediction module to estimate the focal length and elevation of the input image, which allows our method to generate images without shape distortions. Furthermore, a simple but efficient attention layer, named row-wise attention, is used to enforce epipolar priors in the multiview diffusion, facilitating efficient cross-view information fusion. Consequently, compared with state-of-the-art methods, Era3D generates high-quality multiview images with up to a 512*512 resolution while reducing computation complexity by 12x times. Comprehensive experiments demonstrate that Era3D can reconstruct high-quality and detailed 3D meshes from diverse single-view input images, significantly outperforming baseline multiview diffusion methods. Project page: https://penghtyx.github.io/Era3D/.

arxiv情報

著者 Peng Li,Yuan Liu,Xiaoxiao Long,Feihu Zhang,Cheng Lin,Mengfei Li,Xingqun Qi,Shanghang Zhang,Wenhan Luo,Ping Tan,Wenping Wang,Qifeng Liu,Yike Guo
発行日 2024-11-27 15:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク