3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

要約

コンパクトで情報量の多い3Dシーン表現を構築することは、特に長時間に渡る複雑な環境において、効果的な具現化された探索と推論に不可欠である。オブジェクト中心の3Dシーングラフのような既存の表現は、限定的なテキスト関係を持つ孤立したオブジェクトとしてシーンをモデル化することで、空間的関係を単純化しすぎており、微妙な空間的理解を必要とするクエリに対処することを困難にしている。さらに、これらの表現は、能動的な探索とメモリ管理のための自然なメカニズムを欠いており、生涯自律への応用を妨げている。本研究では、具現化エージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。3D-Memは、シーンを表現し、探索された領域の豊富な視覚情報を取得するために、メモリスナップショットと呼ばれる情報量の多いマルチビュー画像を用いる。さらに、フロンティア・スナップショット(未探索領域を垣間見る)を導入することで、フロンティアベースの探索を統合し、エージェントが既知の情報と潜在的な新しい情報の両方を考慮することで、情報に基づいた意思決定を行うことを可能にします。アクティブな探索環境における生涯メモリをサポートするために、3D-Memのインクリメンタルな構築パイプラインと、メモリ管理のためのメモリ検索技術を紹介する。3つのベンチマークを用いた実験結果は、3D-Memが3D環境におけるエージェントの探索と推論能力を著しく向上させることを実証し、具現化AIにおけるアプリケーションを前進させる可能性を強調する。

要約(オリジナル)

Constructing compact and informative 3D scene representations is essential for effective embodied exploration and reasoning, especially in complex environments over extended periods. Existing representations, such as object-centric 3D scene graphs, oversimplify spatial relationships by modeling scenes as isolated objects with restrictive textual relationships, making it difficult to address queries requiring nuanced spatial understanding. Moreover, these representations lack natural mechanisms for active exploration and memory management, hindering their application to lifelong autonomy. In this work, we propose 3D-Mem, a novel 3D scene memory framework for embodied agents. 3D-Mem employs informative multi-view images, termed Memory Snapshots, to represent the scene and capture rich visual information of explored regions. It further integrates frontier-based exploration by introducing Frontier Snapshots-glimpses of unexplored areas-enabling agents to make informed decisions by considering both known and potential new information. To support lifelong memory in active exploration settings, we present an incremental construction pipeline for 3D-Mem, as well as a memory retrieval technique for memory management. Experimental results on three benchmarks demonstrate that 3D-Mem significantly enhances agents’ exploration and reasoning capabilities in 3D environments, highlighting its potential for advancing applications in embodied AI.

arxiv情報

著者 Yuncong Yang,Han Yang,Jiachen Zhou,Peihao Chen,Hongxin Zhang,Yilun Du,Chuang Gan
発行日 2025-04-04 06:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク