要約
部分地図でのナビゲーションのための高速かつ信頼性の高いポリシー選択のための新しいアプローチを紹介します。
最近の学習拡張モデルベースのサブゴール計画学習 (LSP) 抽象化を活用して計画を立て、ロボットはナビゲーション中に収集されたデータを再利用して、オフライン代替ポリシー リプレイと呼ばれる手順を通じて他の代替ポリシーがどの程度うまく実行できたかを評価します。
オフラインの代替ポリシーの再生によるコストは、展開中の LSP ベースのポリシーの中からポリシーの選択を制限し、コンバージェンス速度、累積リグレス、平均ナビゲーション コストの改善を可能にします。
目に見えない環境の性質についての事前知識が限られているため、模擬迷路やオフィスのような環境での実験では、ベースラインのバンディットアプローチと比較して累積後悔率が少なくとも 67%、最大で 96% 改善されました。
要約(オリジナル)
We present a novel approach for fast and reliable policy selection for navigation in partial maps. Leveraging the recent learning-augmented model-based Learning over Subgoals Planning (LSP) abstraction to plan, our robot reuses data collected during navigation to evaluate how well other alternative policies could have performed via a procedure we call offline alt-policy replay. Costs from offline alt-policy replay constrain policy selection among the LSP-based policies during deployment, allowing for improvements in convergence speed, cumulative regret and average navigation cost. With only limited prior knowledge about the nature of unseen environments, we achieve at least 67% and as much as 96% improvements on cumulative regret over the baseline bandit approach in our experiments in simulated maze and office-like environments.
arxiv情報
著者 | Abhishek Paudel,Gregory J. Stein |
発行日 | 2023-08-01 18:26:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google