要約
複数の矛盾する目標を伴う制御問題の場合、単一の最適ポリシーの代わりに、パレート セットと呼ばれる一連のパレート最適ポリシーが存在します。
多目的制御問題が連続的で複雑な場合、従来の多目的強化学習 (MORL) アルゴリズムは、パレート集合に近似するために多くのパレート最適の深いポリシーを検索しますが、これは非常にリソースを消費します。
この論文では、単一のハイパーネットを使用して高次元のポリシー パラメータ空間でパレート セットの連続表現を学習する、シンプルでリソース効率の高い MORL アルゴリズムを提案します。
学習されたハイパーネットは、さまざまなユーザー設定に合わせて、よく訓練されたさまざまなポリシー ネットワークを直接生成できます。
7 つの多目的連続ロボット制御問題に関して、私たちの手法を 2 つの最先端の MORL アルゴリズムと比較します。
実験結果は、私たちの方法が最小限のトレーニングパラメータで最高の全体的なパフォーマンスを達成することを示しています。
興味深い観察は、パレート集合が高次元パラメーター空間の曲線または曲面によってよく近似されていることです。
この観察は、研究者が新しい MORL アルゴリズムを設計するための洞察を提供します。
要約(オリジナル)
For a control problem with multiple conflicting objectives, there exists a set of Pareto-optimal policies called the Pareto set instead of a single optimal policy. When a multi-objective control problem is continuous and complex, traditional multi-objective reinforcement learning (MORL) algorithms search for many Pareto-optimal deep policies to approximate the Pareto set, which is quite resource-consuming. In this paper, we propose a simple and resource-efficient MORL algorithm that learns a continuous representation of the Pareto set in a high-dimensional policy parameter space using a single hypernet. The learned hypernet can directly generate various well-trained policy networks for different user preferences. We compare our method with two state-of-the-art MORL algorithms on seven multi-objective continuous robot control problems. Experimental results show that our method achieves the best overall performance with the least training parameters. An interesting observation is that the Pareto set is well approximated by a curved line or surface in a high-dimensional parameter space. This observation will provide insight for researchers to design new MORL algorithms.
arxiv情報
著者 | Tianye Shu,Ke Shang,Cheng Gong,Yang Nan,Hisao Ishibuchi |
発行日 | 2024-06-27 06:31:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google