TAB-Fields: A Maximum Entropy Framework for Mission-Aware Adversarial Planning


敵対的なシナリオで行動する自律エージェントは、時間的制約の中で特定の目的地に到達するといった敵対者のハイレベルな目的は知っていても、敵対者が採用する正確な政策は未知のままであるという基本的な課題に直面する。従来のアプローチでは、敵の状態を部分的に観測可能な要素として扱い、部分観測可能マルコフ決定過程(POMDP)として定式化することでこの課題に対処してきた。しかし、POMDPにおいて誘導される信念空間のダイナミクスは、システムの遷移ダイナミクスの知識を必要とし、この場合、敵の未知のポリシーに依存する。我々の重要な観察は、敵の正確な方針が未知である一方で、敵の行動はミッションの目的と物理環境によって必然的に制約されることであり、特定の方針を仮定することなく可能な行動空間を特徴付けることができる。本論文では、TAB-Fields(Task-Aware Behavior Fields)を開発する。TAB-Fieldsは、既知の制約条件と一致する最も不偏な確率分布を計算することにより、敵の状態分布を時間的に捉える表現である。TAB-Fieldsは、ミッションや環境要件に加え、敵の行動に関する付加的な仮定を最小化する制約付き最適化問題を解くことによって構築される。TAB-Fieldは、Partially Observable Monte Carlo Planningを応用したTAB-conditioned POMCPを導入することにより、標準的な計画アルゴリズムと統合する。水中ロボットを用いたシミュレーションと地上ロボットを用いたハードウェア実装の実験を通して、我々のアプローチが、特定の敵対者のポリシーを想定したり、ミッションの制約を完全に無視したりするベースラインと比較して、優れた性能を達成することを実証する。評価ビデオとコードは。


Autonomous agents operating in adversarial scenarios face a fundamental challenge: while they may know their adversaries’ high-level objectives, such as reaching specific destinations within time constraints, the exact policies these adversaries will employ remain unknown. Traditional approaches address this challenge by treating the adversary’s state as a partially observable element, leading to a formulation as a Partially Observable Markov Decision Process (POMDP). However, the induced belief-space dynamics in a POMDP require knowledge of the system’s transition dynamics, which, in this case, depend on the adversary’s unknown policy. Our key observation is that while an adversary’s exact policy is unknown, their behavior is necessarily constrained by their mission objectives and the physical environment, allowing us to characterize the space of possible behaviors without assuming specific policies. In this paper, we develop Task-Aware Behavior Fields (TAB-Fields), a representation that captures adversary state distributions over time by computing the most unbiased probability distribution consistent with known constraints. We construct TAB-Fields by solving a constrained optimization problem that minimizes additional assumptions about adversary behavior beyond mission and environmental requirements. We integrate TAB-Fields with standard planning algorithms by introducing TAB-conditioned POMCP, an adaptation of Partially Observable Monte Carlo Planning. Through experiments in simulation with underwater robots and hardware implementations with ground robots, we demonstrate that our approach achieves superior performance compared to baselines that either assume specific adversary policies or neglect mission constraints altogether. Evaluation videos and code are available at


著者 Gokul Puthumanaillam,Jae Hyuk Song,Nurzhan Yesmagambet,Shinkyu Park,Melkior Ornik
発行日 2024-12-03 16:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, cs.SY, eess.SY パーマリンク