要約
\textit{Reasoning}は、或る結果を最適化することを目的とした、$a^* での行動の選択を行うアルゴリズム$P$と見なすことができる。しかし、$P$を実行すること自体にコスト(時間、エネルギー、限られた容量など)がかかり、基礎となる決定問題で選択を行うことで得られる明示的な効用と一緒に考える必要がある。正しい$P$を見つけること自体は、推論過程$P$の空間上の最適化問題として枠組むことができ、一般に「メタ推論」と呼ばれる。従来、人間のメタ推論モデルは、エージェントが基礎となるMDPの遷移分布と報酬分布を知っていることを前提としている。本稿では、このようなモデルを一般化し、報酬/遷移分布が未知の環境におけるメタ推論を扱うメタベイズ適応MDP(meta-BAMDP)フレームワークを提案する。最初のステップとして、このフレームワークをベルヌーイバンディットタスクに適用する。メタ問題は複雑であるため、我々の解は必然的に近似解となる。しかし、我々は問題の扱いやすさを大幅に向上させる2つの新しい定理を導入し、現実的な人間の意思決定シナリオに基づく様々な仮定においてロバストな、より強力な近似を可能にする。これらの結果は、認知的制約の下での人間の探索を理解するための資源合理的な視点と規範的な枠組みを提供するとともに、ベルヌーイバンディット課題における人間の行動に関する実験的に検証可能な予測を提供する。
要約(オリジナル)
\textit{Reasoning} may be viewed as an algorithm $P$ that makes a choice of an action $a^* \in \mathcal{A}$, aiming to optimize some outcome. However, executing $P$ itself bears costs (time, energy, limited capacity, etc.) and needs to be considered alongside explicit utility obtained by making the choice in the underlying decision problem. Finding the right $P$ can itself be framed as an optimization problem over the space of reasoning processes $P$, generally referred to as \textit{metareasoning}. Conventionally, human metareasoning models assume that the agent knows the transition and reward distributions of the underlying MDP. This paper generalizes such models by proposing a meta Bayes-Adaptive MDP (meta-BAMDP) framework to handle metareasoning in environments with unknown reward/transition distributions, which encompasses a far larger and more realistic set of planning problems that humans and AI systems face. As a first step, we apply the framework to Bernoulli bandit tasks. Owing to the meta problem’s complexity, our solutions are necessarily approximate. However, we introduce two novel theorems that significantly enhance the tractability of the problem, enabling stronger approximations that are robust within a range of assumptions grounded in realistic human decision-making scenarios. These results offer a resource-rational perspective and a normative framework for understanding human exploration under cognitive constraints, as well as providing experimentally testable predictions about human behavior in Bernoulli Bandit tasks.
arxiv情報
著者 | Prakhar Godara,Tilman Diego Aléman,Angela J. Yu |
発行日 | 2025-02-03 15:11:31+00:00 |
arxivサイト | arxiv_id(pdf) |