要約
秘密計画とは、エージェントが検出を避けるために受動的な観察者に漏洩する情報を最小限に抑えてタスクを完了することを目指す、ある種の制約付き計画問題を指します。
しかし、秘密計画を立てる既存の方法では、多くの場合、決定論的な環境が考慮されているか、観察者の不完全な情報が利用されていません。
この論文では、秘密計画が確率力学と観察者の不完全な観察の結合を利用して、検出されることなく最適なタスクのパフォーマンスを達成する方法を研究します。
具体的には、マルコフ決定プロセスを使用してエージェントとその確率的環境の間の相互作用をモデル化し、部分観察関数を使用して漏洩情報を受動的観察者に捕捉します。
観察者が仮説検定を使用して観察が名目上のポリシーから逸脱しているかどうかを検出すると仮定すると、秘密計画エージェントは、敵として検出される確率を所定のしきい値未満に保ちながら、割引報酬の合計を最大化することを目指します。
私たちは、有限メモリ ポリシーが秘密計画においてマルコフ ポリシーよりも強力であることを証明します。
次に、(局所的に) 最適な秘密政策を計算するための 2 つの時間スケール更新を伴う主双対近接政策勾配法を開発します。
確率的グリッドワールドの例を使用して、私たちの方法の有効性を示します。
私たちの実験結果は、提案された方法が検出制約に違反することなく敵対者の期待される報酬を最大化するポリシーを計算することを示し、環境ノイズが秘密ポリシーのパフォーマンスにどのように影響するかを経験的に示しています。
要約(オリジナル)
Covert planning refers to a class of constrained planning problems where an agent aims to accomplish a task with minimal information leaked to a passive observer to avoid detection. However, existing methods of covert planning often consider deterministic environments or do not exploit the observer’s imperfect information. This paper studies how covert planning can leverage the coupling of stochastic dynamics and the observer’s imperfect observation to achieve optimal task performance without being detected. Specifically, we employ a Markov decision process to model the interaction between the agent and its stochastic environment, and a partial observation function to capture the leaked information to a passive observer. Assuming the observer employs hypothesis testing to detect if the observation deviates from a nominal policy, the covert planning agent aims to maximize the total discounted reward while keeping the probability of being detected as an adversary below a given threshold. We prove that finite-memory policies are more powerful than Markovian policies in covert planning. Then, we develop a primal-dual proximal policy gradient method with a two-time-scale update to compute a (locally) optimal covert policy. We demonstrate the effectiveness of our methods using a stochastic gridworld example. Our experimental results illustrate that the proposed method computes a policy that maximizes the adversary’s expected reward without violating the detection constraint, and empirically demonstrates how the environmental noises can influence the performance of the covert policies.
arxiv情報
著者 | Haoxiang Ma,Chongyang Shi,Shuo Han,Michael R. Dorothy,Jie Fu |
発行日 | 2023-11-01 17:44:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google