要約
大規模学習に基づくナビゲーションの方法は、一般的に各エピソードを新しい問題として扱う。このような未知の環境に対する汎化能力は非常に重要であるが、現実的な設定では、エージェントは以前のロボット操作中に収集された情報を利用する能力を持つべきであると主張する。我々は、同じ環境における過去のエピソードから収集されたデータベースを照会し、この追加的なコンテキスト情報を統合する方法を学習することができる、RLで訓練された新しい検索拡張エージェントを導入することにより、これに対処する。我々は、一般的なナビゲーションタスクのためのユニークなエージェントアーキテクチャを紹介し、ObjectNav、ImageNav、Instance-ImageNavで評価する。我々の検索とコンテキスト符号化手法はデータ駆動型であり、意味理解と幾何学的理解の両方に視覚基盤モデル(FM)を多用している。我々は、これらの設定のための新しいベンチマークを提案し、検索が、性能を大幅に向上させながら、タスクや環境間でゼロショット転送を可能にすることを示す。
要約(オリジナル)
Methods for navigation based on large-scale learning typically treat each episode as a new problem, where the agent is spawned with a clean memory in an unknown environment. While these generalization capabilities to an unknown environment are extremely important, we claim that, in a realistic setting, an agent should have the capacity of exploiting information collected during earlier robot operations. We address this by introducing a new retrieval-augmented agent, trained with RL, capable of querying a database collected from previous episodes in the same environment and learning how to integrate this additional context information. We introduce a unique agent architecture for the general navigation task, evaluated on ObjectNav, ImageNav and Instance-ImageNav. Our retrieval and context encoding methods are data-driven and heavily employ vision foundation models (FM) for both semantic and geometric understanding. We propose new benchmarks for these settings and we show that retrieval allows zero-shot transfer across tasks and environments while significantly improving performance.
arxiv情報
著者 | Gianluca Monaci,Rafael S. Rezende,Romain Deffayet,Gabriela Csurka,Guillaume Bono,Hervé Déjean,Stéphane Clinchant,Christian Wolf |
発行日 | 2025-04-04 15:22:02+00:00 |
arxivサイト | arxiv_id(pdf) |