要約
我々は、入力画像の長いシーケンスから大規模なシーンを再構成できる一般化可能な 3D ガウス再構成モデルである Long-LRM を提案します。
具体的には、私たちのモデルは、単一の A100 80G GPU でわずか 1.3 秒以内に 960×540 の解像度で 32 個のソース画像を処理できます。
私たちのアーキテクチャは、最近の Mamba2 ブロックと従来のトランスフォーマー ブロックの混合を特徴としており、以前の作業よりも多くのトークンを処理できるようになり、品質と効率のバランスをとる効率的なトークン マージとガウス プルーニング ステップによって強化されました。
1 ~ 4 個の入力画像の処理に限定され、大きなシーンのごく一部しか再構成できない以前のフィードフォワード モデルとは異なり、Long-LRM は単一のフィードフォワード ステップでシーン全体を再構成します。
DL3DV-140 や戦車と寺院などの大規模なシーン データセットでは、私たちの方法は最適化ベースのアプローチに匹敵するパフォーマンスを達成しながら、効率が 2 桁向上します。
プロジェクトページ: https://arthurhero.github.io/projects/llrm
要約(オリジナル)
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is capable of reconstructing a large scene from a long sequence of input images. Specifically, our model can process 32 source images at 960×540 resolution within only 1.3 seconds on a single A100 80G GPU. Our architecture features a mixture of the recent Mamba2 blocks and the classical transformer blocks which allowed many more tokens to be processed than prior work, enhanced by efficient token merging and Gaussian pruning steps that balance between quality and efficiency. Unlike previous feed-forward models that are limited to processing 1~4 input images and can only reconstruct a small portion of a large scene, Long-LRM reconstructs the entire scene in a single feed-forward step. On large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method achieves performance comparable to optimization-based approaches while being two orders of magnitude more efficient. Project page: https://arthurhero.github.io/projects/llrm
arxiv情報
著者 | Chen Ziwen,Hao Tan,Kai Zhang,Sai Bi,Fujun Luan,Yicong Hong,Li Fuxin,Zexiang Xu |
発行日 | 2024-10-16 17:54:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google