Metareasoning in uncertain environments: a meta-BAMDP framework

要約

意思決定の場面では、マルコフ決定過程(MDP)の価値関数を最大化するなど、何らかの結果を最適化することを目的とした、$a^* での行動を選択するアルゴリズム$P$と見なすことができる。しかし、$P$を実行すること自体に何らかのコスト(時間、エネルギー、限られた能力など)がかかる可能性があり、基礎となる決定問題で選択を行うことで得られる明示的な効用と一緒に考慮する必要がある。このようなコストは、人間の行動を正確にモデル化するためにも、AIの計画を最適化するためにも考慮する必要がある。正しい$P$を見つけること自体は、推論過程$P$の空間上の最適化問題として構成することができる。従来、人間のメタ推論モデルは、エージェントが基礎となるMDPの遷移分布と報酬分布を知っていることを前提としている。本稿では、このようなモデルを一般化し、報酬/遷移分布が未知の環境におけるメタ推論を扱うメタベイズ適応MDP(meta-BAMDP)フレームワークを提案する。最初のステップとして、人間の意思決定の研究によく用いられている2アームベルヌーイバンディット(TABB)課題にこのフレームワークを適用する。メタ問題は複雑であるため、我々の解は必然的に近似解となるが、それでも人間の意思決定シナリオに間違いなく現実的な仮定の範囲内では頑健である。これらの結果は、認知的制約の下での人間の探索を理解するための規範的枠組みを提供する。このベイズ適応戦略とメタ推論の統合は、意思決定研究の理論的展望と、不確実性と資源制約の下で計画を立てるAIシステムの設計における実用的応用の両方を豊かにする。

要約(オリジナル)

In decision-making scenarios, \textit{reasoning} can be viewed as an algorithm $P$ that makes a choice of an action $a^* \in \mathcal{A}$, aiming to optimize some outcome such as maximizing the value function of a Markov decision process (MDP). However, executing $P$ itself may bear some costs (time, energy, limited capacity, etc.) and needs to be considered alongside explicit utility obtained by making the choice in the underlying decision problem. Such costs need to be taken into account in order to accurately model human behavior, as well as optimizing AI planning, as all physical systems are bound to face resource constraints. Finding the right $P$ can itself be framed as an optimization problem over the space of reasoning processes $P$, generally referred to as \textit{metareasoning}. Conventionally, human metareasoning models assume that the agent knows the transition and reward distributions of the underlying MDP. This paper generalizes such models by proposing a meta Bayes-Adaptive MDP (meta-BAMDP) framework to handle metareasoning in environments with unknown reward/transition distributions, which encompasses a far larger and more realistic set of planning problems that humans and AI systems face. As a first step, we apply the framework to two-armed Bernoulli bandit (TABB) tasks, which have often been used to study human decision making. Owing to the meta problem’s complexity, our solutions are necessarily approximate, but nevertheless robust within a range of assumptions that are arguably realistic for human decision-making scenarios. These results offer a normative framework for understanding human exploration under cognitive constraints. This integration of Bayesian adaptive strategies with metareasoning enriches both the theoretical landscape of decision-making research and practical applications in designing AI systems that plan under uncertainty and resource constraints.

arxiv情報

著者 Prakhar Godara,Tilman Diego Aléman,Angela J. Yu
発行日 2024-08-02 13:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.SY, eess.SY, q-bio.NC パーマリンク