要約
セマンティック 3D マップの構築は、オフィス、倉庫、店舗、住宅内の対象オブジェクトを検索する場合に役立ちます。
我々は、言語埋め込みガウス スプラット (LEGS) を段階的に構築するマッピング システムを紹介します。これは、統一された表現で外観とセマンティクスの両方をエンコードする詳細な 3D シーン表現です。
LEGS は、ロボットがその環境を移動する際にオンラインでトレーニングされ、オープンボキャブラリーのオブジェクトクエリのローカリゼーションを可能にします。
ルームスケールの 4 つのシーンで LEGS を評価し、シーン内のオブジェクトをクエリして、LEGS が意味論的な意味をどのように捉えられるかを評価します。
LEGS と LERF を比較すると、どちらのシステムもオブジェクト クエリの成功率は同等ですが、LEGS のトレーニングは LERF よりも 3.5 倍以上高速であることがわかります。
結果は、マルチカメラのセットアップと段階的なバンドル調整により、制約されたロボットの軌道における視覚的再構成の品質を向上できることを示唆し、LEGS がオープンボキャブラリーとロングテールオブジェクトのクエリを最大 66% の精度で位置特定できることを示唆しています。
要約(オリジナル)
Building semantic 3D maps is valuable for searching for objects of interest in offices, warehouses, stores, and homes. We present a mapping system that incrementally builds a Language-Embedded Gaussian Splat (LEGS): a detailed 3D scene representation that encodes both appearance and semantics in a unified representation. LEGS is trained online as a robot traverses its environment to enable localization of open-vocabulary object queries. We evaluate LEGS on 4 room-scale scenes where we query for objects in the scene to assess how LEGS can capture semantic meaning. We compare LEGS to LERF and find that while both systems have comparable object query success rates, LEGS trains over 3.5x faster than LERF. Results suggest that a multi-camera setup and incremental bundle adjustment can boost visual reconstruction quality in constrained robot trajectories, and suggest LEGS can localize open-vocabulary and long-tail object queries with up to 66% accuracy.
arxiv情報
著者 | Justin Yu,Kush Hari,Kishore Srinivas,Karim El-Refai,Adam Rashid,Chung Min Kim,Justin Kerr,Richard Cheng,Muhammad Zubair Irshad,Ashwin Balakrishna,Thomas Kollar,Ken Goldberg |
発行日 | 2024-09-26 17:51:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google