Deceptive Path Planning via Reinforcement Learning with Graph Neural Networks

要約

欺瞞的パス プランニング (DPP) は、真の目標を外部の観察者から隠すパスを設計する問題です。
DPP の既存の手法は、グローバル状態の可観測性や完全なモデル知識などの非現実的な仮定に依存しており、通常は問題固有のものです。つまり、以前に解決された問題にわずかな変更を加えただけでも、全く新しい解の高価な計算が強制される可能性があります。
これらの欠点を考慮すると、そのような方法は目に見えない問題インスタンスに一般化せず、現実的な問題サイズへの拡張性に欠け、欺瞞レベルのオンザフライ調整機能と変化する環境へのリアルタイム適応性の両方を妨げます。
この論文では、これらの問題を克服する、任意の重み付きグラフに対して DPP を実行するトレーニング ポリシーのための強化学習 (RL) ベースのスキームを提案します。
私たちのアプローチの核心は、エージェントのローカル知覚モデルの導入、DPP 問題の主要なコンポーネントを抽出する新しい状態空間表現、一般化とスケーリングを促進するためのグラフ ニューラル ネットワーク ベースのポリシーの使用、および
古典的な手法の欺瞞の目的を RL 設定に変換する新しい欺瞞ボーナス。
広範な実験を通じて、テスト時に追加の微調整を行わなくても、結果として得られるポリシーが正常に一般化、拡張し、調整可能なレベルの欺瞞を享受し、環境の変化にリアルタイムで適応できることを示しました。

要約(オリジナル)

Deceptive path planning (DPP) is the problem of designing a path that hides its true goal from an outside observer. Existing methods for DPP rely on unrealistic assumptions, such as global state observability and perfect model knowledge, and are typically problem-specific, meaning that even minor changes to a previously solved problem can force expensive computation of an entirely new solution. Given these drawbacks, such methods do not generalize to unseen problem instances, lack scalability to realistic problem sizes, and preclude both on-the-fly tunability of deception levels and real-time adaptivity to changing environments. In this paper, we propose a reinforcement learning (RL)-based scheme for training policies to perform DPP over arbitrary weighted graphs that overcomes these issues. The core of our approach is the introduction of a local perception model for the agent, a new state space representation distilling the key components of the DPP problem, the use of graph neural network-based policies to facilitate generalization and scaling, and the introduction of new deception bonuses that translate the deception objectives of classical methods to the RL setting. Through extensive experimentation we show that, without additional fine-tuning, at test time the resulting policies successfully generalize, scale, enjoy tunable levels of deception, and adapt in real-time to changes in the environment.

arxiv情報

著者 Michael Y. Fatemi,Wesley A. Suttle,Brian M. Sadler
発行日 2024-02-09 17:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.LG パーマリンク