CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in Confounded Environments

要約

実世界の環境で動作するロボットは、確率的行動の起こり得る結果について推論し、真の世界の状態の部分的な観察に基づいて決定を下さなければなりません。
正確かつ堅牢なアクション予測を行うための大きな課題は交絡の問題であり、これを放置すると予測エラーが発生する可能性があります。
部分的に観察可能なマルコフ決定プロセス (POMDP) は、これらの確率的で部分的に観察可能な意思決定問題をモデル化するために広く使用されているフレームワークです。
ただし、明示的な因果関係論が欠如しているため、POMDP 計画手法は交絡バイアスを生じやすいため、観察されていない交絡因子が存在するとパフォーマンスの低いポリシーが生成される可能性があります。
この論文は、因果モデリングと推論を使用して未測定の交絡変数によって引き起こされる誤差を排除する、最新のいつでもオンライン POMDP プランナーである「いつでも正則化決定化スパース部分観測可能ツリー (AR-DESPOT)」の因果情報に基づいた新しい拡張機能を紹介します。
さらに、計画のための因果モデルの部分的なパラメータ化をグラウンド トゥルース モデル データからオフラインで学習する方法を提案します。
観測されていない交絡因子を含むトイプロブレムに関する手法を評価し、学習された因果モデルが非常に正確である一方、計画手法が交絡に対してより堅牢であり、AR-DESPOT よりも全体的に高いパフォーマンスのポリシーを生成することを示します。

要約(オリジナル)

Robots operating in real-world environments must reason about possible outcomes of stochastic actions and make decisions based on partial observations of the true world state. A major challenge for making accurate and robust action predictions is the problem of confounding, which if left untreated can lead to prediction errors. The partially observable Markov decision process (POMDP) is a widely-used framework to model these stochastic and partially-observable decision-making problems. However, due to a lack of explicit causal semantics, POMDP planning methods are prone to confounding bias and thus in the presence of unobserved confounders may produce underperforming policies. This paper presents a novel causally-informed extension of ‘anytime regularized determinized sparse partially observable tree’ (AR-DESPOT), a modern anytime online POMDP planner, using causal modelling and inference to eliminate errors caused by unmeasured confounder variables. We further propose a method to learn offline the partial parameterisation of the causal model for planning, from ground truth model data. We evaluate our methods on a toy problem with an unobserved confounder and show that the learned causal model is highly accurate, while our planning method is more robust to confounding and produces overall higher performing policies than AR-DESPOT.

arxiv情報

著者 Ricardo Cannizzaro,Lars Kunze
発行日 2023-07-12 16:34:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, G.3 パーマリンク