要約
我々は、ガウススプラッティングを使用した大規模環境向けのRGBDカメラを備えたリアルタイム3D再構成システムであるRTG-SLAMを提案します。
RTG-SLAM は、コンパクトなガウス表現と、非常に効率的なオンザフライ ガウス最適化スキームを備えています。
各ガウスを不透明またはほぼ透明にするように強制します。不透明なものは表面と主要な色に適合し、透明なものは残りの色に適合します。
カラーレンダリングとは異なる方法で深度をレンダリングすることで、複数の重なり合うガウスを必要とせずに、単一の不透明なガウスを局所的な表面領域にうまく適合させることができるため、メモリと計算のコストが大幅に削減されます。
オンザフライのガウス最適化では、フレームごとに 3 種類のピクセル (新たに観察されたピクセル、大きな色誤差のあるピクセル、および大きな深度エラーのあるピクセル) のガウス分布を明示的に追加します。
また、すべてのガウスを安定ガウスと不安定ガウスに分類します。安定ガウスは以前に観察された RGBD 画像によく適合すると予想され、それ以外の場合は不安定です。
不安定なガウスのみを最適化し、不安定なガウスが占めるピクセルのみをレンダリングします。
このようにして、最適化するガウス数とレンダリングするピクセルの両方が大幅に削減され、最適化をリアルタイムで行うことができます。
さまざまな実際の大きなシーンをリアルタイムに再構成して表示します。
最先端の NeRF ベースの RGBD SLAM と比較して、当社のシステムは同等の高品質の再構成を実現しながら、約 2 倍の速度と半分のメモリコストを実現し、斬新なビュー合成とカメラ追跡のリアリズムにおいて優れたパフォーマンスを示します。
正確さ。
要約(オリジナル)
We propose RTG-SLAM, a real-time 3D reconstruction system with an RGBD camera for large-scale environments using Gaussian splatting. RTG-SLAM features a compact Gaussian representation and a highly efficient on-the-fly Gaussian optimization scheme. We force each Gaussian to be either opaque or nearly transparent, with the opaque ones fitting the surface and dominant colors, and transparent ones fitting residual colors. By rendering depth in a different way from color rendering, we let a single opaque Gaussian well fit a local surface region without the need of multiple overlapping Gaussians, hence largely reducing the memory and computation cost. For on-the-fly Gaussian optimization, we explicitly add Gaussians for three types of pixels per frame: newly observed, with large color errors and with large depth errors. We also categorize all Gaussians into stable and unstable ones, where the stable Gaussians are expected to well fit previously observed RGBD images and otherwise unstable. We only optimize the unstable Gaussians and only render the pixels occupied by unstable Gaussians. In this way, both the number of Gaussians to be optimized and pixels to be rendered are largely reduced, and the optimization can be done in real time. We show real-time reconstructions of a variety of real large scenes. Compared with the state-of-the-art NeRF-based RGBD SLAM, our system achieves comparable high-quality reconstruction but with around twice the speed and half the memory cost, and shows superior performance in the realism of novel view synthesis and camera tracking accuracy.
arxiv情報
著者 | Zhexi Peng,Tianjia Shao,Yong Liu,Jingke Zhou,Yin Yang,Jingdong Wang,Kun Zhou |
発行日 | 2024-04-30 16:54:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google