Learning telic-controllable state representations

要約

目的のある行動の計算上の説明は、記述的側面と規範的側面で構成されます。
前者により、エージェントは世界の現在 (または将来) の情勢を確認することができ、後者により、エージェントの目標に関してこれらの状態の望ましさ、またはその欠如を評価することができます。
強化学習では、規範的な側面 (報酬関数と価値関数) は、事前定義された固定の記述的な側面 (状態表現) に依存すると想定されます。
あるいは、これら 2 つの側面は相互に依存して現れる可能性があります。目標は状態表現の特徴という観点から表現することができ、実際にそうであることがよくありますが、それらは状態表現そのものを形作る役割も果たすこともあります。
ここでは、目標指向状態またはテリック状態の概念を介して記述的側面と規範的側面を結合する、有界エージェントでの状態表現学習の新しい理論的枠組みを説明します。
我々は、テリック状態表現の新しい制御性プロパティを定義して、その粒度と、すべてのテリック状態に到達するために必要なポリシーの複雑さの能力との間のトレードオフを特徴付けます。
制御可能な状態表現を学習するためのアルゴリズムを提案し、目標を変更する単純なナビゲーション タスクを使用してそれを実証します。
私たちのフレームワークは、目標に柔軟でシンプルな状態表現を学習するために、意図的な無知、つまり何を無視すべきかを知ることが重要な役割を果たしていることに焦点を当てています。
より広範には、私たちの研究は、目標というレンズを通して、自然学習と人工学習の統一された理論的見解に向けた具体的な一歩を提供します。

要約(オリジナル)

Computational accounts of purposeful behavior consist of descriptive and normative aspects. The former enable agents to ascertain the current (or future) state of affairs in the world and the latter to evaluate the desirability, or lack thereof, of these states with respect to the agent’s goals. In Reinforcement Learning, the normative aspect (reward and value functions) is assumed to depend on a pre-defined and fixed descriptive one (state representation). Alternatively, these two aspects may emerge interdependently: goals can be, and indeed often are, expressed in terms of state representation features, but they may also serve to shape state representations themselves. Here, we illustrate a novel theoretical framing of state representation learning in bounded agents, coupling descriptive and normative aspects via the notion of goal-directed, or telic, states. We define a new controllability property of telic state representations to characterize the tradeoff between their granularity and the policy complexity capacity required to reach all telic states. We propose an algorithm for learning controllable state representations and demonstrate it using a simple navigation task with changing goals. Our framework highlights the crucial role of deliberate ignorance – knowing what to ignore – for learning state representations that are both goal-flexible and simple. More broadly, our work provides a concrete step towards a unified theoretical view of natural and artificial learning through the lens of goals.

arxiv情報

著者 Nadav Amir,Stas Tiomkin,Angela Langdon
発行日 2024-06-20 16:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク