要約
3D ガウス スプラッティング (3DGS) 表現を使用して、長期的な探査目標と短期的なアクションを計画できるアクティブ マッピング システムを紹介します。
既存の手法は、マルチモーダル大規模言語モデル (LLM) の最近の開発を利用していないか、身体化されたエージェントで重要なローカリゼーションの不確実性の課題を考慮していませんでした。
私たちは、情報ベースのアルゴリズムを使用した詳細な動作計画と組み合わせて、長期計画にマルチモーダル LLM を採用することを提案します。
3DGS 表現からの高品質のビュー合成を活用することにより、私たちの方法では、意味論的な観点から長期的な探査目標のゼロショット プランナーとしてマルチモーダル LLM を採用しています。
また、位置推定エラーのコストを最小限に抑えながら、環境の情報獲得を最大化するという 2 つの目的のバランスをとる、不確実性を考慮したパスの提案と選択アルゴリズムも導入します。
Gibson および Habitat-Matterport の 3D データセットに対して行われた実験は、提案された方法の最先端の結果を示しています。
要約(オリジナル)
We present an active mapping system that could plan for long-horizon exploration goals and short-term actions with a 3D Gaussian Splatting (3DGS) representation. Existing methods either did not take advantage of recent developments in multimodal Large Language Models (LLM) or did not consider challenges in localization uncertainty, which is critical in embodied agents. We propose employing multimodal LLMs for long-horizon planning in conjunction with detailed motion planning using our information-based algorithm. By leveraging high-quality view synthesis from our 3DGS representation, our method employs a multimodal LLM as a zero-shot planner for long-horizon exploration goals from the semantic perspective. We also introduce an uncertainty-aware path proposal and selection algorithm that balances the dual objectives of maximizing the information gain for the environment while minimizing the cost of localization errors. Experiments conducted on the Gibson and Habitat-Matterport 3D datasets demonstrate state-of-the-art results of the proposed method.
arxiv情報
著者 | Wen Jiang,Boshu Lei,Katrina Ashton,Kostas Daniilidis |
発行日 | 2024-12-04 22:03:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google