Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning

要約

この論文では、複数の報酬関数が存在する場合のパレート最適ポリシーの学習に焦点を当てた多目的強化学習 (MORL) について調査します。
MORL は実証的に大きな成功を収めているにもかかわらず、さまざまな MORL 最適化ターゲットと効率的な学習アルゴリズムについてはまだ十分な理解が得られていません。
私たちの研究では、いくつかの最適化ターゲットの体系的な分析を提供し、すべてのパレート最適ポリシーを見つける能力と、さまざまな目的の好みによる学習されたポリシーの制御可能性を評価します。
次に、MORL にとって有利なスカラー化方法として Tchebycheff スカラー化を特定します。
チェビシェフのスカラー化の非滑らかさを考慮して、その最小化問題を新しい min-max-max 最適化問題に再定式化します。
次に、確率的政策クラスに対して、この再定式化を使用してパレート最適政策を学習する効率的なアルゴリズムを提案します。
まず、与えられた 1 つの設定に対して $\tilde{\mathcal{O}}(\varepsilon^{-2})$ のサンプル複雑度で $\varepsilon$ 学習誤差を達成するオンライン UCB ベースのアルゴリズムを提案します。
さまざまな設定の下での環境探索のコストをさらに削減するために、最初に事前定義された設定なしで環境を探索し、次に任意の数の設定に対するソリューションを生成する、設定なしのフレームワークを提案します。
探索段階で $\tilde{\mathcal{O}}(\varepsilon^{-2})$ の探索複雑性のみが必要であり、その後の追加の探索は必要ないことを証明します。
最後に、チェビシェフ スカラー化の拡張であるスムーズ チェビシェフ スカラー化を分析します。これは、選好ベクトルのエントリ値に基づいてパレート最適ポリシーを他の弱いパレート最適ポリシーから区別する際に、より有利であることが証明されています。
さらに、この最適化目標に対応するためにアルゴリズムと理論分析を拡張します。

要約(オリジナル)

This paper investigates multi-objective reinforcement learning (MORL), which focuses on learning Pareto optimal policies in the presence of multiple reward functions. Despite MORL’s significant empirical success, there is still a lack of satisfactory understanding of various MORL optimization targets and efficient learning algorithms. Our work offers a systematic analysis of several optimization targets to assess their abilities to find all Pareto optimal policies and controllability over learned policies by the preferences for different objectives. We then identify Tchebycheff scalarization as a favorable scalarization method for MORL. Considering the non-smoothness of Tchebycheff scalarization, we reformulate its minimization problem into a new min-max-max optimization problem. Then, for the stochastic policy class, we propose efficient algorithms using this reformulation to learn Pareto optimal policies. We first propose an online UCB-based algorithm to achieve an $\varepsilon$ learning error with an $\tilde{\mathcal{O}}(\varepsilon^{-2})$ sample complexity for a single given preference. To further reduce the cost of environment exploration under different preferences, we propose a preference-free framework that first explores the environment without pre-defined preferences and then generates solutions for any number of preferences. We prove that it only requires an $\tilde{\mathcal{O}}(\varepsilon^{-2})$ exploration complexity in the exploration phase and demands no additional exploration afterward. Lastly, we analyze the smooth Tchebycheff scalarization, an extension of Tchebycheff scalarization, which is proved to be more advantageous in distinguishing the Pareto optimal policies from other weakly Pareto optimal policies based on entry values of preference vectors. Furthermore, we extend our algorithms and theoretical analysis to accommodate this optimization target.

arxiv情報

著者 Shuang Qiu,Dake Zhang,Rui Yang,Boxiang Lyu,Tong Zhang
発行日 2024-07-24 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク