When to Localize? A Risk-Constrained Reinforcement Learning Approach

要約

標準のナビゲーションパイプラインでは、ロボットがナビゲーションエラーを減らすために毎回ローカライズします。
ただし、一部のシナリオでは、ロボットは観測を取得するのに費用がかかる場合に選択的にローカライズする必要があります。
たとえば、ローカライズするための水中ロボットが浮上すると、crash落した航空機からのブラックボックスなど、水中の重要なアイテムを検索することが頻繁に妨げられます。
一方、ロボットがローカル化されない場合、状態の推定が不十分な場合、検索エリアを誤って離れたり、危険な制限区域に入ったりしたため、アイテムを見つけられなくなります。
これらのシナリオに動機付けられて、ロボットが「いつローカライズするか」を決定するのを支援するアプローチを調査します。
これを双基準の最適化問題として定式化します。故障の可能性を確保しながら、ローカリゼーションアクションの数を最小限に抑えます(衝突のため、または目的の目標に達していないため)は、境界を獲得したままです。
最近の研究では、このアクティブなローカリゼーション問題を制約された部分的に観察可能なマルコフ決定プロセス(POMDP)として策定する方法を示しました。これは、オンラインPOMDPソルバーを使用して解決されました。
ただし、このアプローチは遅すぎて、ロボットの移行モデルと観測モデルに関する完全な知識が必要です。
この論文では、これらの制限を克服する制約付き強化学習(RL)フレームワークであるRiskRLを提示します。
RiskRLは、粒子フィルタリングと再発性のソフトアクターcriticネットワークを使用して、故障制約の可能性を確実に満たしながらローカライズの数を最小限に抑えるポリシーを学習します。
私たちの数値実験は、RiskRLが目に見えないテスト環境を横断するときに少なくとも26%の成功率の増加につながる堅牢なポリシーを学習することを示しています。

要約(オリジナル)

In a standard navigation pipeline, a robot localizes at every time step to lower navigational errors. However, in some scenarios, a robot needs to selectively localize when it is expensive to obtain observations. For example, an underwater robot surfacing to localize too often hinders it from searching for critical items underwater, such as black boxes from crashed aircraft. On the other hand, if the robot never localizes, poor state estimates cause failure to find the items due to inadvertently leaving the search area or entering hazardous, restricted areas. Motivated by these scenarios, we investigate approaches to help a robot determine ‘when to localize?’ We formulate this as a bi-criteria optimization problem: minimize the number of localization actions while ensuring the probability of failure (due to collision or not reaching a desired goal) remains bounded. In recent work, we showed how to formulate this active localization problem as a constrained Partially Observable Markov Decision Process (POMDP), which was solved using an online POMDP solver. However, this approach is too slow and requires full knowledge of the robot transition and observation models. In this paper, we present RiskRL, a constrained Reinforcement Learning (RL) framework that overcomes these limitations. RiskRL uses particle filtering and recurrent Soft Actor-Critic network to learn a policy that minimizes the number of localizations while ensuring the probability of failure constraint is met. Our numerical experiments show that RiskRL learns a robust policy that leads to at least a 26% increase in success rates when traversing unseen test environments.

arxiv情報

著者 Chak Lam Shek,Kasra Torshizi,Troi Williams,Pratap Tokekar
発行日 2025-04-29 19:14:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク