Observation-Augmented Contextual Multi-Armed Bandits for Robotic Search and Exploration


我々は、ロボットが外部情報源からの追加の結果観察を使用する、観察拡張型 CMAB (OA-CMAB) と呼ばれるコンテキスト マルチアーム バンディット (CMAB) の新しいバリアントを導入します。
OA-CMAB では、外部観察はコンテキスト特徴の関数であるため、観察されたオプションの結果に加えて隠れたパラメーターを推測する証拠を提供します。
この目的を達成するために、最近開発された確率的意味論的データ関連付け技術に基づいて、OA-CMAB の堅牢なベイジアン推論プロセスを導出します。この技術は、意味論的外部データ ソースの複雑な混合モデル パラメーター事前確率とハイブリッド離散連続観測尤度を処理します。
OA-CMAB における複合的な不確実性に対処するために、おおよその予想される自由エネルギー最小化に基づいて最適なオプションを選択するための新しい能動推論アルゴリズムも導出します。
これは、誤った観測と非ガウス分布を考慮に入れることで、CMAB 能動的推論に関する以前の研究を一般化します。


We introduce a new variant of contextual multi-armed bandits (CMABs) called observation-augmented CMABs (OA-CMABs) wherein a robot uses extra outcome observations from an external information source, e.g. humans. In OA-CMABs, external observations are a function of context features and thus provide evidence on top of observed option outcomes to infer hidden parameters. However, if external data is error-prone, measures must be taken to preserve the correctness of inference. To this end, we derive a robust Bayesian inference process for OA-CMABs based on recently developed probabilistic semantic data association techniques, which handle complex mixture model parameter priors and hybrid discrete-continuous observation likelihoods for semantic external data sources. To cope with combined uncertainties in OA-CMABs, we also derive a new active inference algorithm for optimal option selection based on approximate expected free energy minimization. This generalizes prior work on CMAB active inference by accounting for faulty observations and non-Gaussian distributions. Results for a simulated deep space search site selection problem show that, even if incorrect semantic observations are provided externally, e.g. by scientists, efficient decision-making and robust parameter inference are still achieved in a wide variety of conditions.


著者 Shohei Wakayama,Nisar Ahmed
発行日 2025-01-05 16:52:37+00:00
カテゴリー: cs.LG, cs.RO