要約
単眼カメラを使用して3Dシーンの高忠実度表現を構築することで、マイクロロボット、スマートフォン、AR/VRヘッドセットなどのモバイルデバイスで幅広いアプリケーションを可能にします。
これらのデバイスでは、メモリの容量が限られていることが多く、そのアクセスはしばしば計算エネルギーの消費を支配します。
Gaussian Splutting(GS)は3Dシーンの高忠実度の再構築を可能にしますが、現在のGSベースのスラムは、壊滅的な忘却を減らすためにガウス系を再訓練するために多数の過去の画像が保存されるため、メモリ効率が高くありません。
これらの画像は、多くの場合、マップ自体よりも2つのマグニチュードの高いメモリを必要とするため、メモリの合計使用量が支配されます。
この作業では、既存のマップからそれらをレンダリングすることにより、以前の方法として同等の忠実度を達成するGSベースのモノクラースラムフレームワークであるGevoを提示します。
新しいガウスの初期化と最適化手法は、マップからアーティファクトを削除し、時間の経過とともにレンダリングされた画像の分解を遅らせるために提案されています。
さまざまな環境で、Gevoは同等のマップの忠実度を達成しながら、メモリオーバーヘッドを約58 MBに減らします。これは、以前の作業よりも最大94倍低いです。
要約(オリジナル)
Constructing a high-fidelity representation of the 3D scene using a monocular camera can enable a wide range of applications on mobile devices, such as micro-robots, smartphones, and AR/VR headsets. On these devices, memory is often limited in capacity and its access often dominates the consumption of compute energy. Although Gaussian Splatting (GS) allows for high-fidelity reconstruction of 3D scenes, current GS-based SLAM is not memory efficient as a large number of past images is stored to retrain Gaussians for reducing catastrophic forgetting. These images often require two-orders-of-magnitude higher memory than the map itself and thus dominate the total memory usage. In this work, we present GEVO, a GS-based monocular SLAM framework that achieves comparable fidelity as prior methods by rendering (instead of storing) them from the existing map. Novel Gaussian initialization and optimization techniques are proposed to remove artifacts from the map and delay the degradation of the rendered images over time. Across a variety of environments, GEVO achieves comparable map fidelity while reducing the memory overhead to around 58 MBs, which is up to 94x lower than prior works.
arxiv情報
著者 | Dasong Gao,Peter Zhi Xuan Li,Vivienne Sze,Sertac Karaman |
発行日 | 2025-01-29 21:55:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google