Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention

要約

大規模再構成モデ​​ル (LRM) の最近の進歩は目覚ましい結果を示していますが、その入力を単一の画像から複数の画像に拡張すると、非効率性、幾何学的およびテクスチャ品質が標準以下であり、予想よりも遅い収束速度が示されます。
これは、LRM が入力画像間の強い 3D コヒーレンスを無視して、3D 再構築を単純な画像から 3D への変換問題として定式化していることに起因します。
この論文では、3D を意識した方法でマルチビューから高品質の 3D 形状を再構成するように設計されたマルチビュー大規模再構成モデ​​ル (M-LRM) を提案します。
具体的には、M-LRM が入力画像から情報を正確にクエリできるようにするために、マルチビューの一貫したクロスアテンション スキームを導入します。
さらに、入力マルチビュー画像の 3D 事前分布を使用して、トライプレーン トークンを初期化します。
以前の方法と比較して、提案された M-LRM は忠実度の高い 3D 形状を生成できます。
実験研究では、私たちのモデルが大幅なパフォーマンスの向上とトレーニングの収束の高速化を達成していることが実証されています。
プロジェクトページ: \url{https://murphylmf.github.io/M-LRM/}。

要約(オリジナル)

Despite recent advancements in the Large Reconstruction Model (LRM) demonstrating impressive results, when extending its input from single image to multiple images, it exhibits inefficiencies, subpar geometric and texture quality, as well as slower convergence speed than expected. It is attributed to that, LRM formulates 3D reconstruction as a naive images-to-3D translation problem, ignoring the strong 3D coherence among the input images. In this paper, we propose a Multi-view Large Reconstruction Model (M-LRM) designed to reconstruct high-quality 3D shapes from multi-views in a 3D-aware manner. Specifically, we introduce a multi-view consistent cross-attention scheme to enable M-LRM to accurately query information from the input images. Moreover, we employ the 3D priors of the input multi-view images to initialize the triplane tokens. Compared to previous methods, the proposed M-LRM can generate 3D shapes of high fidelity. Experimental studies demonstrate that our model achieves a significant performance gain and faster training convergence. Project page: \url{https://murphylmf.github.io/M-LRM/}.

arxiv情報

著者 Mengfei Li,Xiaoxiao Long,Yixun Liang,Weiyu Li,Yuan Liu,Peng Li,Wenhan Luo,Wenping Wang,Yike Guo
発行日 2024-12-02 12:23:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク