DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning

要約

インフォマティブ パス プランニング (IPP) は、環境監視などのさまざまな現実世界のロボット アプリケーションにとって重要な計画パラダイムです。
IPP には、計画上の制約を遵守しながら、対象量の正確な信念を学習できるパスの計画が含まれます。
従来の IPP 手法は通常、実行中に長い計算時間を必要とするため、強化学習 (RL) ベースの IPP 手法が登場しました。
しかし、既存の RL ベースの手法は、環境特性の変化による独自の課題を伴う時空間環境を考慮していません。
この論文では、ダイナミクスが変化する時空間環境全体で効果的に動作するように設計された、堅牢な RL ベースの IPP フレームワークである DyPNIPP を提案します。
これを達成するために、DyPNIPP はドメインのランダム化を組み込んでさまざまな環境にわたってエージェントをトレーニングし、ダイナミクス予測モデルを導入してエージェントのアクションをキャプチャして特定の環境のダイナミクスに適応させます。
山火事環境での広範な実験により、DyPNIPP が堅牢性を大幅に向上させ、さまざまな環境条件でパフォーマンスを発揮することにより、既存の RL ベースの IPP アルゴリズムを上回るパフォーマンスを示すことが実証されました。

要約(オリジナル)

Informative path planning (IPP) is an important planning paradigm for various real-world robotic applications such as environment monitoring. IPP involves planning a path that can learn an accurate belief of the quantity of interest, while adhering to planning constraints. Traditional IPP methods typically require high computation time during execution, giving rise to reinforcement learning (RL) based IPP methods. However, the existing RL-based methods do not consider spatio-temporal environments which involve their own challenges due to variations in environment characteristics. In this paper, we propose DyPNIPP, a robust RL-based IPP framework, designed to operate effectively across spatio-temporal environments with varying dynamics. To achieve this, DyPNIPP incorporates domain randomization to train the agent across diverse environments and introduces a dynamics prediction model to capture and adapt the agent actions to specific environment dynamics. Our extensive experiments in a wildfire environment demonstrate that DyPNIPP outperforms existing RL-based IPP algorithms by significantly improving robustness and performing across diverse environment conditions.

arxiv情報

著者 Srujan Deolasee,Siva Kailas,Wenhao Luo,Katia Sycara,Woojun Kim
発行日 2024-10-22 17:07:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク