要約
3D Spatial Multimodal Memory(M3)は、視覚的知覚のためにビデオソースを通じて中規模の静的シーンに関する情報を保持するように設計されたマルチモーダルメモリシステムです。
M3は、3Dガウスのスプラットテクニックを基礎モデルと統合することにより、幅広い知識を網羅し、粒度全体に特徴表現をレンダリングできるマルチモーダルメモリを構築します。
調査では、機能のスプラッティングに関する以前の作業で2つの重要な課題を特定します。(1)各ガウス原始の高次元機能を保存する際の計算上の制約、および(2)蒸留機能と基礎モデル機能の間の誤った整列または情報の損失。
これらの課題に対処するために、主要なシーンコンポーネントとガウスメモリの注意の主要なコンポーネントを備えたM3を提案し、効率的なトレーニングと推論を可能にします。
M3を検証するために、特徴の類似性とダウンストリームタスクの包括的な定量的評価、およびガウスメモリの注意のピクセルトレースを強調する定性的視覚化を実施します。
私たちのアプローチには、ビジョン言語モデル(VLMS)、知覚モデル、大規模なマルチモーダルおよび言語モデル(LMMS/LLMS)など、多様な基礎モデルが含まれます。
さらに、現実世界の適用性を示すために、4倍のロボットに屋内シーンにM3の特徴フィールドを展開します。
特に、M3は、3D機能の蒸留におけるコア圧縮の課題に対処する最初の作業であると主張しています。
要約(オリジナル)
We present 3D Spatial MultiModal Memory (M3), a multimodal memory system designed to retain information about medium-sized static scenes through video sources for visual perception. By integrating 3D Gaussian Splatting techniques with foundation models, M3 builds a multimodal memory capable of rendering feature representations across granularities, encompassing a wide range of knowledge. In our exploration, we identify two key challenges in previous works on feature splatting: (1) computational constraints in storing high-dimensional features for each Gaussian primitive, and (2) misalignment or information loss between distilled features and foundation model features. To address these challenges, we propose M3 with key components of principal scene components and Gaussian memory attention, enabling efficient training and inference. To validate M3, we conduct comprehensive quantitative evaluations of feature similarity and downstream tasks, as well as qualitative visualizations to highlight the pixel trace of Gaussian memory attention. Our approach encompasses a diverse range of foundation models, including vision-language models (VLMs), perception models, and large multimodal and language models (LMMs/LLMs). Furthermore, to demonstrate real-world applicability, we deploy M3’s feature field in indoor scenes on a quadruped robot. Notably, we claim that M3 is the first work to address the core compression challenges in 3D feature distillation.
arxiv情報
著者 | Xueyan Zou,Yuchen Song,Ri-Zhao Qiu,Xuanbin Peng,Jianglong Ye,Sifei Liu,Xiaolong Wang |
発行日 | 2025-03-20 17:59:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google