On the Convergence of Bounded Agents

要約

エージェントはいつ集結しましたか?
強化学習問題の標準モデルでは、収束の簡単な定義が得られます。つまり、各環境状態におけるエージェントの動作やパフォーマンスが変化しなくなったときに、エージェントは収束します。
しかし、学習問題の焦点を環境の状態からエージェントの状態に移すと、エージェントの収束の概念が大幅に明確でなくなります。
この論文では、有界エージェントを中心とした強化学習問題の枠組みにおけるエージェントの収束に関する 2 つの相補的な説明を提案します。
最初のビューは、エージェントの将来の動作を記述するために必要な状態の最小数が減少できないときに、有界エージェントが収束したことを示しています。
2 番目のビューは、エージェントの内部状態が変化した場合にのみエージェントのパフォーマンスが変化するときに、境界付きエージェントが収束したことを示しています。
我々は、これら 2 つの定義の基本的な特性を確立し、それらが標準的な設定における収束の典型的なビューに対応していることを示し、それらの性質と関係についてのいくつかの事実を証明します。
私たちは、この分野の中心的な考え方を明確にするために、これらの視点、定義、分析を採用します。

要約(オリジナル)

When has an agent converged? Standard models of the reinforcement learning problem give rise to a straightforward definition of convergence: An agent converges when its behavior or performance in each environment state stops changing. However, as we shift the focus of our learning problem from the environment’s state to the agent’s state, the concept of an agent’s convergence becomes significantly less clear. In this paper, we propose two complementary accounts of agent convergence in a framing of the reinforcement learning problem that centers around bounded agents. The first view says that a bounded agent has converged when the minimal number of states needed to describe the agent’s future behavior cannot decrease. The second view says that a bounded agent has converged just when the agent’s performance only changes if the agent’s internal state changes. We establish basic properties of these two definitions, show that they accommodate typical views of convergence in standard settings, and prove several facts about their nature and relationship. We take these perspectives, definitions, and analysis to bring clarity to a central idea of the field.

arxiv情報

著者 David Abel,André Barreto,Hado van Hasselt,Benjamin Van Roy,Doina Precup,Satinder Singh
発行日 2023-07-20 17:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク