CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in Confounded Environments

要約

タイトル:CAR-DESPOT:因果推論に基づく混乱環境下のロボットのオンラインPOMDP計画

要約:

– 現実世界で活動するロボットは、確率的アクションの可能な結果を推論し、真の世界の状態の部分的な観察に基づいて決定を下す必要があります。
– 正確で堅牢なアクション予測を行うための主な課題は、混乱の問題であり、これが無視されると予測誤差が生じる可能性があります。
– 部分的に観測可能なマルコフ決定過程(POMDP)は、これらの確率的かつ部分的に観測可能な意思決定問題をモデル化するために広く使用されているフレームワークです。
– しかし、明示的な因果関係の意味が欠けているため、POMDP計画方法には混乱バイアスがあるため、観測されない混乱要因が存在する場合、性能の低いポリシーを生成する可能性があります。
– この論文は、「いつでも正則化された確定化されたまばらな部分的に観測可能な木」(AR-DESPOT)と呼ばれる現代的なオンラインPOMDPプランナーの因果推論に基づく新しい拡張を示し、未測定の混乱要因による誤りを排除します。
– 加えて、我々は、グラウンドトゥルーのモデルデータから計画のための部分的な因果モデルのオフライン学習方法を提案します。
– 我々は、未観測の混乱要因を持つおもちゃの問題で我々の方法を評価し、学習された因果モデルが高度に正確であり、我々の計画方法が混乱に対してより強健であり、AR-DESPOTよりも全体的に高いパフォーマンスを発揮することを示しました。

要約(オリジナル)

Robots operating in real-world environments must reason about possible outcomes of stochastic actions and make decisions based on partial observations of the true world state. A major challenge for making accurate and robust action predictions is the problem of confounding, which if left untreated can lead to prediction errors. The partially observable Markov decision process (POMDP) is a widely-used framework to model these stochastic and partially-observable decision-making problems. However, due to a lack of explicit causal semantics, POMDP planning methods are prone to confounding bias and thus in the presence of unobserved confounders may produce underperforming policies. This paper presents a novel causally-informed extension of ‘anytime regularized determinized sparse partially observable tree’ (AR-DESPOT), a modern anytime online POMDP planner, using causal modelling and inference to eliminate errors caused by unmeasured confounder variables. We further propose a method to learn offline the partial parameterisation of the causal model for planning, from ground truth model data. We evaluate our methods on a toy problem with an unobserved confounder and show that the learned causal model is highly accurate, while our planning method is more robust to confounding and produces overall higher performing policies than AR-DESPOT.

arxiv情報

著者 Ricardo Cannizzaro,Lars Kunze
発行日 2023-04-13 22:32:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.RO, G.3 パーマリンク