Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning

要約

現実の世界での一連の意思決定では、多くの場合、相反する目的の適切なバランスを見つける必要があります。
一般に、目的間の妥協のさまざまなパターンを具現化するパレート最適化ポリシーが多数存在し、ディープ ニューラル ネットワークを使用してそれらを徹底的に取得することは技術的に困難です。
この作業では、目的の線形スカラー化に依存することなく、ポリシー勾配を介して単一のニューラル ネットワークをトレーニングし、トレーニングの 1 回の実行でパレート セット全体をほぼ取得する、新しい多目的強化学習 (MORL) アルゴリズムを提案します。
提案された方法は、ポリシーネットワークの設計変更なしで、連続および離散アクションスペースの両方で機能します。
ベンチマーク環境での数値実験は、標準的な MORL ベースラインと比較して、私たちのアプローチの実用性と有効性を示しています。

要約(オリジナル)

Sequential decision making in the real world often requires finding a good balance of conflicting objectives. In general, there exist a plethora of Pareto-optimal policies that embody different patterns of compromises between objectives, and it is technically challenging to obtain them exhaustively using deep neural networks. In this work, we propose a novel multi-objective reinforcement learning (MORL) algorithm that trains a single neural network via policy gradient to approximately obtain the entire Pareto set in a single run of training, without relying on linear scalarization of objectives. The proposed method works in both continuous and discrete action spaces with no design change of the policy network. Numerical experiments in benchmark environments demonstrate the practicality and efficacy of our approach in comparison to standard MORL baselines.

arxiv情報

著者 Takuya Kanazawa,Chetan Gupta
発行日 2023-03-15 20:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク