要約
逐次的な意思決定の設定では、エージェントは、環境の大きな、場合によっては無限のセットに対して体系的な一般化を達成することを目指しています。
このような環境は、特徴ベクトルによって表される状態とアクションの両方を持つ離散マルコフ決定プロセスとしてモデル化されます。
環境の基礎となる構造により、移行ダイナミクスを 2 つのコンポーネントに分解できます。1 つは環境固有で、もう 1 つは共有されます。
例として、運動の法則を共有する一連の環境を考えてみましょう。
この設定では、エージェントは、これらの環境のサブセットから有限量の報酬のない対話を取得できます。
次に、エージェントは、上記の相互作用のみに依存して、元のセット内の任意の環境で定義された計画タスクを近似的に解決できなければなりません。
体系的な一般化という野心的な目標を達成する、証明可能な効率のアルゴリズムを設計できるでしょうか?
この論文では、この質問に対して部分的に肯定的な答えを示します。
まず、因果関係の観点を採用することにより、体系的な一般化の扱いやすい定式化を提供します。
次に、特定の構造的仮定の下で、多項式サンプルの複雑さを示しながら、避けられない準最適項までの任意の望ましい計画エラーを保証する単純な学習アルゴリズムを提供します。
要約(オリジナル)
In the sequential decision making setting, an agent aims to achieve systematic generalization over a large, possibly infinite, set of environments. Such environments are modeled as discrete Markov decision processes with both states and actions represented through a feature vector. The underlying structure of the environments allows the transition dynamics to be factored into two components: one that is environment-specific and another that is shared. Consider a set of environments that share the laws of motion as an example. In this setting, the agent can take a finite amount of reward-free interactions from a subset of these environments. The agent then must be able to approximately solve any planning task defined over any environment in the original set, relying on the above interactions only. Can we design a provably efficient algorithm that achieves this ambitious goal of systematic generalization? In this paper, we give a partially positive answer to this question. First, we provide a tractable formulation of systematic generalization by employing a causal viewpoint. Then, under specific structural assumptions, we provide a simple learning algorithm that guarantees any desired planning error up to an unavoidable sub-optimality term, while showcasing a polynomial sample complexity.
arxiv情報
著者 | Mirco Mutti,Riccardo De Santi,Emanuele Rossi,Juan Felipe Calderon,Michael Bronstein,Marcello Restelli |
発行日 | 2023-03-30 12:25:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google