Observation-Augmented Contextual Multi-Armed Bandits for Robotic Exploration with Uncertain Semantic Data

要約

不確実性の下でロボットによる意思決定を行うには、利用可能なオプションの活用と探索とのバランスを慎重に考慮する必要があります。
この研究では、意思決定エージェントが外部情報源からの追加の結果観察を利用できる、観察拡張 CMAB (OA-CMAB) と呼ばれるコンテキスト マルチアーム バンディットの新しい亜種を導入します。
CMAB は、予想されるオプションの結果を、以前のオプションの結果から推測されるコンテキストの特徴と隠しパラメータの関数としてモデル化します。
OA-CMAB では、外部観察もコンテキスト特徴の関数であるため、隠れたパラメーターに関する追加の証拠が提供されます。
しかし、外部情報ソースがエラーを起こしやすい場合、エラーの存在を考慮しない限り、結果として生じる事後更新により意思決定のパフォーマンスが損なわれる可能性があります。
この目的を達成するために、確率的データ検証の概念に基づいた OA-CMAB の堅牢なベイジアン推論プロセスを提案します。
私たちのアプローチは、セマンティック データ ソースの複雑な混合モデル パラメーター事前確率とハイブリッド観測尤度を処理し、最近開発された確率的セマンティック データ関連付け技術に基づいた検証アルゴリズムを開発できるようにします。
さらに、OA-CMAB における複合的な不確実性源により効果的に対処するために、予想される自由エネルギーの最小化に基づいてオプションを選択するための新しい能動推論アルゴリズムを導出します。
これは、欠陥のある観察と非ガウス推論を考慮して、バンディットベースのロボット意思決定のための能動推論に関する以前の研究を一般化します。
私たちのアプローチは、宇宙探査のためのシミュレートされた非同期検索サイト選択問題で実証されます。
この結果は、外部情報源によって不正確な観察結果が提供された場合でも、さまざまな実験条件において効率的な意思決定と堅牢なパラメーター推論が依然として達成されることを示しています。

要約(オリジナル)

For robotic decision-making under uncertainty, the balance between exploitation and exploration of available options must be carefully taken into account. In this study, we introduce a new variant of contextual multi-armed bandits called observation-augmented CMABs (OA-CMABs) wherein a decision-making agent can utilize extra outcome observations from an external information source. CMABs model the expected option outcomes as a function of context features and hidden parameters, which are inferred from previous option outcomes. In OA-CMABs, external observations are also a function of context features and thus provide additional evidence about the hidden parameters. Yet, if an external information source is error-prone, the resulting posterior updates can harm decision-making performance unless the presence of errors is considered. To this end, we propose a robust Bayesian inference process for OA-CMABs that is based on the concept of probabilistic data validation. Our approach handles complex mixture model parameter priors and hybrid observation likelihoods for semantic data sources, allowing us to develop validation algorithms based on recently develop probabilistic semantic data association techniques. Furthermore, to more effectively cope with the combined sources of uncertainty in OA-CMABs, we derive a new active inference algorithm for option selection based on expected free energy minimization. This generalizes previous work on active inference for bandit-based robotic decision-making by accounting for faulty observations and non-Gaussian inference. Our approaches are demonstrated on a simulated asynchronous search site selection problem for space exploration. The results show that even if incorrect observations are provided by external information sources, efficient decision-making and robust parameter inference are still achieved in a wide variety of experimental conditions.

arxiv情報

著者 Shohei Wakayama,Nisar Ahmed
発行日 2023-12-19 20:28:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク