Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

要約

我々は、入力画像の長いシーケンスから大規模なシーンを再構成できる一般化可能な 3D ガウス再構成モデ​​ルである Long-LRM を提案します。
具体的には、私たちのモデルは、単一の A100 80G GPU でわずか 1.3 秒以内に 960×540 の解像度で 32 個のソース画像を処理できます。
私たちのアーキテクチャは、最近の Mamba2 ブロックと従来のトランスフォーマー ブロックの混合を特徴としており、以前の作業よりも多くのトークンを処理できるようになり、品質と効率のバランスをとる効率的なトークン マージとガウス プルーニング ステップによって強化されました。
1 ~ 4 個の入力画像の処理に限定され、大きなシーンのごく一部しか再構成できない以前のフィードフォワード モデルとは異なり、Long-LRM は単一のフィードフォワード ステップでシーン全体を再構成します。
DL3DV-140 や戦車と寺院などの大規模なシーン データセットでは、私たちの方法は最適化ベースのアプローチに匹敵するパフォーマンスを達成しながら、効率が 2 桁向上します。
プロジェクトページ: https://arthurhero.github.io/projects/llrm

要約(オリジナル)

We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is capable of reconstructing a large scene from a long sequence of input images. Specifically, our model can process 32 source images at 960×540 resolution within only 1.3 seconds on a single A100 80G GPU. Our architecture features a mixture of the recent Mamba2 blocks and the classical transformer blocks which allowed many more tokens to be processed than prior work, enhanced by efficient token merging and Gaussian pruning steps that balance between quality and efficiency. Unlike previous feed-forward models that are limited to processing 1~4 input images and can only reconstruct a small portion of a large scene, Long-LRM reconstructs the entire scene in a single feed-forward step. On large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method achieves performance comparable to optimization-based approaches while being two orders of magnitude more efficient. Project page: https://arthurhero.github.io/projects/llrm

arxiv情報

著者 Chen Ziwen,Hao Tan,Kai Zhang,Sai Bi,Fujun Luan,Yicong Hong,Li Fuxin,Zexiang Xu
発行日 2024-10-16 17:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク