Resolving Multiple-Dynamic Model Uncertainty in Hypothesis-Driven Belief-MDPs

要約

サイバー物理システムの人間のオペレーターは、驚くべき動作に遭遇すると、それを説明できる可能性のある複数の仮説を検討することがよくあります。
場合によっては、追加の測定やシステムに与えられる制御入力などの情報収集アクションを実行すると、不確実性を解決し、最も正確な仮説を決定するのに役立ちます。
これらのアクションを最適化するタスクは、仮説駆動型信念 MDP と呼ばれる信念空間マルコフ決定プロセスとして定式化できます。
残念なことに、この問題は、部分的に観察可能なマルコフ決定プロセス (POMDP) と同様の歴史の呪いに悩まされています。
連続的な領域で計画を立てるには、エージェントは、考えられる無数の行動観察履歴を推論する必要があり、それぞれが未知の状態に対する異なる信念をもたらします。
仮説主導のコンテキストでは、各行動と観察のペアが仮説ごとに異なる信念を生み出し、さらなる分岐につながるため、この問題はさらに悪化します。
この論文では、各仮説が基礎となる POMDP の異なる動的モデルに対応するケースを検討します。
我々は、(i) 複数の仮説に対する推論を可能にし、(ii) (最も可能性の高い) 正しい仮説を決定し、基礎となる POMDP で適切に実行するという目標のバランスをとり、(iii) スパースで解決できる、新しい信念 MDP 定式化を提示します。
木探し。

要約(オリジナル)

When human operators of cyber-physical systems encounter surprising behavior, they often consider multiple hypotheses that might explain it. In some cases, taking information-gathering actions such as additional measurements or control inputs given to the system can help resolve uncertainty and determine the most accurate hypothesis. The task of optimizing these actions can be formulated as a belief-space Markov decision process that we call a hypothesis-driven belief MDP. Unfortunately, this problem suffers from the curse of history similar to a partially observable Markov decision process (POMDP). To plan in continuous domains, an agent needs to reason over countlessly many possible action-observation histories, each resulting in a different belief over the unknown state. The problem is exacerbated in the hypothesis-driven context because each action-observation pair spawns a different belief for each hypothesis, leading to additional branching. This paper considers the case in which each hypothesis corresponds to a different dynamic model in an underlying POMDP. We present a new belief MDP formulation that: (i) enables reasoning over multiple hypotheses, (ii) balances the goals of determining the (most likely) correct hypothesis and performing well in the underlying POMDP, and (iii) can be solved with sparse tree search.

arxiv情報

著者 Ofer Dagan,Tyler Becker,Zachary N. Sunberg
発行日 2024-11-21 18:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク