Sample-Efficient Multi-Objective Learning via Generalized Policy Improvement Prioritization

要約

多目的強化学習 (MORL) アルゴリズムは、エージェントが (競合する可能性がある) 報酬関数に対して異なる好みを持つ可能性がある逐次決定問題に取り組みます。
このようなアルゴリズムは、多くの場合、一連のポリシー (それぞれが特定のエージェントの好みに合わせて最適化されています) を学習し、後で新しい好みの問題を解決するために使用できます。
一般化されたポリシーの改善 (GPI) を使用して、サンプル効率の高い学習を改善する原則的で正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを紹介します。
それらは、エージェントが (i) 与えられた MORL 問題をより迅速に解決するために、各瞬間にトレーニングする最も有望な設定/目的を特定できるアクティブ ラーニング戦略を実装します。
(ii)新しいDynaスタイルのMORLメソッドを介して、特定のエージェントの好みのポリシーを学習するときに、どの以前の経験が最も関連性があるかを識別します。
我々のアルゴリズムが、有限数のステップで常に最適解に収束することが保証されていることを証明します。
最適なポリシー。
また、私たちの方法が学習中に部分解の品質を単調に改善することも証明します。
最後に、学習全体を通してこの方法によって計算された部分解によって生じる最大効用損失 (最適解に関して) を特徴付ける境界を導入します。
離散的および連続的な状態空間とアクション空間の両方で、多目的タスクに挑戦する際に、私たちの方法が最先端のMORLアルゴリズムよりも優れていることを経験的に示しています。

要約(オリジナル)

Multi-objective reinforcement learning (MORL) algorithms tackle sequential decision problems where agents may have different preferences over (possibly conflicting) reward functions. Such algorithms often learn a set of policies (each optimized for a particular agent preference) that can later be used to solve problems with novel preferences. We introduce a novel algorithm that uses Generalized Policy Improvement (GPI) to define principled, formally-derived prioritization schemes that improve sample-efficient learning. They implement active-learning strategies by which the agent can (i) identify the most promising preferences/objectives to train on at each moment, to more rapidly solve a given MORL problem; and (ii) identify which previous experiences are most relevant when learning a policy for a particular agent preference, via a novel Dyna-style MORL method. We prove our algorithm is guaranteed to always converge to an optimal solution in a finite number of steps, or an $\epsilon$-optimal solution (for a bounded $\epsilon$) if the agent is limited and can only identify possibly sub-optimal policies. We also prove that our method monotonically improves the quality of its partial solutions while learning. Finally, we introduce a bound that characterizes the maximum utility loss (with respect to the optimal solution) incurred by the partial solutions computed by our method throughout learning. We empirically show that our method outperforms state-of-the-art MORL algorithms in challenging multi-objective tasks, both with discrete and continuous state and action spaces.

arxiv情報

著者 Lucas N. Alegre,Ana L. C. Bazzan,Diederik M. Roijers,Ann Nowé,Bruno C. da Silva
発行日 2023-03-23 16:29:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク