要約
ロボットが環境モニタリングのために現場に配備される場合、ロボットは通常、有益な経路計画などの適応方法ではなく、芝刈り機の経路などの事前にプログラムされた動作を実行します。
この理由の 1 つは、アダプティブ メソッドが、正しく設定することが重要であり、専門家以外が選択するのが難しいパラメーターの選択に依存していることです。
ここでは、有益なパス プランニングの各反復でプランナー パラメーターを選択するように強化学習エージェントをトレーニングすることにより、有益なパス プランニング用のプランナーを自動的に構成する方法を示します。
3 つの異なる環境の 37 のインスタンスを使用してこの方法を実証し、純粋な (エンドツーエンドの) 強化学習手法や、学習済みモデルを使用してプランナー パラメーターを変更しないアプローチと比較します。
私たちの方法は、エンドツーエンドの学習ベースの方法と比較した場合、多様な環境にわたる累積報酬の平均 9.53% の改善を示しています。
また、フィールド実験を通じて、情報収集ロボットの高性能展開を容易にするためにどのように使用できるかを実証します。
要約(オリジナル)
When robots are deployed in the field for environmental monitoring they typically execute pre-programmed motions, such as lawnmower paths, instead of adaptive methods, such as informative path planning. One reason for this is that adaptive methods are dependent on parameter choices that are both critical to set correctly and difficult for the non-specialist to choose. Here, we show how to automatically configure a planner for informative path planning by training a reinforcement learning agent to select planner parameters at each iteration of informative path planning. We demonstrate our method with 37 instances of 3 distinct environments, and compare it against pure (end-to-end) reinforcement learning techniques, as well as approaches that do not use a learned model to change the planner parameters. Our method shows a 9.53% mean improvement in the cumulative reward across diverse environments when compared to end-to-end learning based methods; we also demonstrate via a field experiment how it can be readily used to facilitate high performance deployment of an information gathering robot.
arxiv情報
著者 | Christopher E. Denniston,Gautam Salhotra,Akseli Kangaslahti,David A. Caron,Gaurav S. Sukhatme |
発行日 | 2023-03-09 03:53:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google