Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments

要約

自律探査には多くの重要な用途があります。
しかし、古典的な情報獲得ベースまたはフロンティアベースの探査は、ロボットの現在の状態にのみ依存して当面の探査目標を決定するため、将来の状態の値を予測する機能が欠如しており、非効率な探査決定につながります。
この論文では、現実世界の困難な環境におけるロボット探索の指針を提供するために、状態値関数によって測定される「良好な」状態がどの程度であるかを学習する方法を紹介します。
私たちは、ロボット探索 (OPERE) のためのオフポリシー評価 (OPE) 問題として作業を定式化します。
これは、実世界のデータに対するオフライン モンテカルロ トレーニングで構成され、時間差 (TD) オンライン適応を実行して、トレーニングされた値推定器を最適化します。
また、センサー情報のカバレッジに基づいて固有の報酬関数を設計し、ロボットがまばらな外部報酬でより多くの情報を取得できるようにします。
結果は、私たちの方法により、ロボットが将来の状態の値を予測して、ロボットの探索をより適切にガイドできることが示されました。
提案されたアルゴリズムは、最先端のアルゴリズムと比較して、より優れた予測および探索パフォーマンスを実現します。
私たちの知る限り、この研究は、困難な地下および都市環境におけるロボット探査のための実世界のデータセットに対する価値関数予測を初めて実証します。
詳細とデモビデオは https://jeffreyyh.github.io/opere/ でご覧いただけます。

要約(オリジナル)

Autonomous exploration has many important applications. However, classic information gain-based or frontier-based exploration only relies on the robot current state to determine the immediate exploration goal, which lacks the capability of predicting the value of future states and thus leads to inefficient exploration decisions. This paper presents a method to learn how ‘good’ states are, measured by the state value function, to provide a guidance for robot exploration in real-world challenging environments. We formulate our work as an off-policy evaluation (OPE) problem for robot exploration (OPERE). It consists of offline Monte-Carlo training on real-world data and performs Temporal Difference (TD) online adaptation to optimize the trained value estimator. We also design an intrinsic reward function based on sensor information coverage to enable the robot to gain more information with sparse extrinsic rewards. Results show that our method enables the robot to predict the value of future states so as to better guide robot exploration. The proposed algorithm achieves better prediction and exploration performance compared with the state-of-the-arts. To the best of our knowledge, this work for the first time demonstrates value function prediction on real-world dataset for robot exploration in challenging subterranean and urban environments. More details and demo videos can be found at https://jeffreyyh.github.io/opere/.

arxiv情報

著者 Yafei Hu,Junyi Geng,Chen Wang,John Keller,Sebastian Scherer
発行日 2023-05-24 20:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク