When to Localize? A Risk-Constrained Reinforcement Learning Approach

要約

標準のナビゲーション パイプラインでは、ロボットはナビゲーション エラーを減らすためにタイム ステップごとに位置を特定します。
ただし、シナリオによっては、観測値を取得するのにコストがかかる場合に、ロボットが選択的に位置を特定する必要があります。
たとえば、水中ロボットが位置を特定するために浮上することが多すぎると、墜落した航空機のブラック ボックスなど、水中の重要なアイテムを探すことができなくなります。
一方、ロボットが位置を特定しない場合、状態推定が不十分な場合、不用意に探索エリアを離れたり、危険な立ち入り禁止エリアに入ったりして、アイテムを見つけることができなくなる可能性があります。
これらのシナリオに基づいて、私たちはロボットが「いつローカライズするか」を決定するのに役立つアプローチを調査します。
これを二重基準最適化問題として定式化します。つまり、失敗の確率 (衝突または目的の目標に到達しないことによる) が制限されたままであることを保証しながら、位置特定アクションの数を最小限に抑えます。
最近の研究では、この能動的位置特定問題を制約付き部分観察マルコフ決定プロセス (POMDP) として定式化し、オンライン POMDP ソルバーを使用して解決する方法を示しました。
ただし、このアプローチは時間がかかりすぎるため、ロボットの遷移と観察モデルに関する十分な知識が必要です。
本稿では、これらの制限を克服する制約付き強化学習 (RL) フレームワークである RiskRL を紹介します。
RiskRL は、パーティクル フィルタリングとリカレント ソフト アクター – クリティカル ネットワークを使用して、失敗確率の制約が確実に満たされるようにしながら、ローカリゼーションの数を最小限に抑えるポリシーを学習します。
私たちの数値実験では、RiskRL がベースラインを少なくとも 13% 上回る堅牢なポリシーを学習し、同時に目に見えない環境にも一般化できることが示されています。

要約(オリジナル)

In a standard navigation pipeline, a robot localizes at every time step to lower navigational errors. However, in some scenarios, a robot needs to selectively localize when it is expensive to obtain observations. For example, an underwater robot surfacing to localize too often hinders it from searching for critical items underwater, such as black boxes from crashed aircraft. On the other hand, if the robot never localizes, poor state estimates cause failure to find the items due to inadvertently leaving the search area or entering hazardous, restricted areas. Motivated by these scenarios, we investigate approaches to help a robot determine ‘when to localize?’ We formulate this as a bi-criteria optimization problem: minimize the number of localization actions while ensuring the probability of failure (due to collision or not reaching a desired goal) remains bounded. In recent work, we showed how to formulate this active localization problem as a constrained Partially Observable Markov Decision Process (POMDP), which was solved using an online POMDP solver. However, this approach is too slow and requires full knowledge of the robot transition and observation models. In this paper, we present RiskRL, a constrained Reinforcement Learning (RL) framework that overcomes these limitations. RiskRL uses particle filtering and recurrent Soft Actor-Critic network to learn a policy that minimizes the number of localizations while ensuring the probability of failure constraint is met. Our numerical experiments show that RiskRL learns a robust policy that outperforms the baseline by at least 13% while also generalizing to unseen environments.

arxiv情報

著者 Chak Lam Shek,Kasra Torshizi,Troi Williams,Pratap Tokekar
発行日 2024-11-05 03:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク