要約
3Dガウススプラッティングは、幅広い視覚的、幾何学的、意味的情報をモデル化し、表現力豊かなシーン再構築を提供する。しかし、複数のロボットやデバイスからストリームされるデータを用いた効率的なリアルタイム地図再構成は、依然として課題である。そのため、我々はHAMMERを提案する。HAMMERは、広く利用可能なROS通信インフラストラクチャを活用し、ロボットの初期位置の事前知識がなく、デバイス上のポーズ推定量が変化する非同期ロボットデータストリームから、3D、メトリック意味マップを生成するサーバーベースの協調ガウススプラッティング手法である。HAMMERは、(i)ローカルSLAMポーズと画像データをグローバルフレームに変換するフレームアライメントモジュールと、(ii)ストリーミングデータからセマンティック3DGSマップを学習するオンラインモジュールで構成されています。HAMMERは、混合知覚モードを扱い、異なるデバイス間の画像前処理の差異を自動的に調整し、CLIP意味コードを3Dシーンに抽出し、オープン語彙言語クエリに使用する。我々の実世界実験では、HAMMERは競合するベースラインと比較して、より忠実度の高いマップ(2倍)を作成し、意味的目標条件付きナビゲーション(例えば、「ソファに行く」)のような下流のタスクに有用である。関連コンテンツはhammer-project.github.ioで入手可能。
要約(オリジナル)
3D Gaussian Splatting offers expressive scene reconstruction, modeling a broad range of visual, geometric, and semantic information. However, efficient real-time map reconstruction with data streamed from multiple robots and devices remains a challenge. To that end, we propose HAMMER, a server-based collaborative Gaussian Splatting method that leverages widely available ROS communication infrastructure to generate 3D, metric-semantic maps from asynchronous robot data-streams with no prior knowledge of initial robot positions and varying on-device pose estimators. HAMMER consists of (i) a frame alignment module that transforms local SLAM poses and image data into a global frame and requires no prior relative pose knowledge, and (ii) an online module for training semantic 3DGS maps from streaming data. HAMMER handles mixed perception modes, adjusts automatically for variations in image pre-processing among different devices, and distills CLIP semantic codes into the 3D scene for open-vocabulary language queries. In our real-world experiments, HAMMER creates higher-fidelity maps (2x) compared to competing baselines and is useful for downstream tasks, such as semantic goal-conditioned navigation (e.g., ‘go to the couch’). Accompanying content available at hammer-project.github.io.
arxiv情報
著者 | Javier Yu,Timothy Chen,Mac Schwager |
発行日 | 2025-06-03 16:34:57+00:00 |
arxivサイト | arxiv_id(pdf) |