要約
AIエージェントが人間と3D環境の両方とシームレスに対話できるようにするには、3D世界を正確に認識するだけでなく、人間の言語を3D空間表現に合わせなければなりません。
3Dガウススプラッティング(GS)を使用して、言語機能を幾何学的に詳細な3Dシーン表現に統合することにより、以前の作業が大きな進歩を遂げましたが、これらのアプローチは、各入力画像の言語機能の計算集約的なオフラインの前処理に依存し、新しい環境への適応性を制限します。
この作業では、事前に生成された言語機能を必要とせずに、3DGS-SLALシステム内でオンラインでほぼリアルタイムのオープンボキャブラリー言語マッピングを達成する最初のフレームワークであるオンライン言語スプラッティングを紹介します。
重要な課題は、計算速度、メモリの使用、レンダリングの品質、およびオープンポンシャル機能のバランスをとりながら、高次元言語の特徴を3D表現に効率的に融合することにあります。
To this end, we innovatively design: (1) a high-resolution CLIP embedding module capable of generating detailed language feature maps in 18ms per frame, (2) a two-stage online auto-encoder that compresses 768-dimensional CLIP features to 15 dimensions while preserving open-vocabulary capabilities, and (3) a color-language disentangled optimization approach to improve rendering quality.
実験結果は、オンライン方法が精度の最先端のオフライン方法を上回るだけでなく、40倍以上の効率向上を達成し、動的でインタラクティブなAIアプリケーションの可能性を示していることを示しています。
要約(オリジナル)
To enable AI agents to interact seamlessly with both humans and 3D environments, they must not only perceive the 3D world accurately but also align human language with 3D spatial representations. While prior work has made significant progress by integrating language features into geometrically detailed 3D scene representations using 3D Gaussian Splatting (GS), these approaches rely on computationally intensive offline preprocessing of language features for each input image, limiting adaptability to new environments. In this work, we introduce Online Language Splatting, the first framework to achieve online, near real-time, open-vocabulary language mapping within a 3DGS-SLAM system without requiring pre-generated language features. The key challenge lies in efficiently fusing high-dimensional language features into 3D representations while balancing the computation speed, memory usage, rendering quality and open-vocabulary capability. To this end, we innovatively design: (1) a high-resolution CLIP embedding module capable of generating detailed language feature maps in 18ms per frame, (2) a two-stage online auto-encoder that compresses 768-dimensional CLIP features to 15 dimensions while preserving open-vocabulary capabilities, and (3) a color-language disentangled optimization approach to improve rendering quality. Experimental results show that our online method not only surpasses the state-of-the-art offline methods in accuracy but also achieves more than 40x efficiency boost, demonstrating the potential for dynamic and interactive AI applications.
arxiv情報
著者 | Saimouli Katragadda,Cho-Ying Wu,Yuliang Guo,Xinyu Huang,Guoquan Huang,Liu Ren |
発行日 | 2025-03-12 14:49:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google