Observation-Augmented Contextual Multi-Armed Bandits for Robotic Search and Exploration

要約

我々は、ロボットが外部情報源からの追加の結果観察を使用する、観察拡張型 CMAB (OA-CMAB) と呼ばれるコンテキスト マルチアーム バンディット (CMAB) の新しいバリアントを導入します。
人間。
OA-CMAB では、外部観察はコンテキスト特徴の関数であるため、観察されたオプションの結果に加えて隠れたパラメーターを推測する証拠を提供します。
ただし、外部データにエラーが発生しやすい場合は、推論の正確さを維持するための措置を講じる必要があります。
この目的を達成するために、最近開発された確率的意味論的データ関連付け技術に基づいて、OA-CMAB の堅牢なベイジアン推論プロセスを導出します。この技術は、意味論的外部データ ソースの複雑な混合モデル パラメーター事前確率とハイブリッド離散連続観測尤度を処理します。
OA-CMAB における複合的な不確実性に対処するために、おおよその予想される自由エネルギー最小化に基づいて最適なオプションを選択するための新しい能動推論アルゴリズムも導出します。
これは、誤った観測と非ガウス分布を考慮に入れることで、CMAB 能動的推論に関する以前の研究を一般化します。
シミュレートされた深宇宙探索サイト選択問題の結果は、たとえ不正確な意味論的観測が外部から提供されたとしても、それを示しています。
科学者らによると、効率的な意思決定と堅牢なパラメーター推論は、さまざまな条件下でも依然として達成されています。

要約(オリジナル)

We introduce a new variant of contextual multi-armed bandits (CMABs) called observation-augmented CMABs (OA-CMABs) wherein a robot uses extra outcome observations from an external information source, e.g. humans. In OA-CMABs, external observations are a function of context features and thus provide evidence on top of observed option outcomes to infer hidden parameters. However, if external data is error-prone, measures must be taken to preserve the correctness of inference. To this end, we derive a robust Bayesian inference process for OA-CMABs based on recently developed probabilistic semantic data association techniques, which handle complex mixture model parameter priors and hybrid discrete-continuous observation likelihoods for semantic external data sources. To cope with combined uncertainties in OA-CMABs, we also derive a new active inference algorithm for optimal option selection based on approximate expected free energy minimization. This generalizes prior work on CMAB active inference by accounting for faulty observations and non-Gaussian distributions. Results for a simulated deep space search site selection problem show that, even if incorrect semantic observations are provided externally, e.g. by scientists, efficient decision-making and robust parameter inference are still achieved in a wide variety of conditions.

arxiv情報

著者 Shohei Wakayama,Nisar Ahmed
発行日 2025-01-05 16:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク