要約
このホワイト ペーパーでは、ディープ Q ネットワーク (DQN) アプローチによって導入された進歩に基づいて、多目的表形式の強化学習 (RL) アルゴリズム W 学習を大きな状態空間に拡張します。
W ラーニング アルゴリズムは、多目的環境における複数の単一ポリシー間の競合を自然に解決できます。
ただし、表形式のバージョンは、状態空間が大きい環境にはうまくスケーリングできません。
この問題に対処するために、基になる Q テーブルを DQN に置き換え、表形式の重み (W) 表現の代わりとして W ネットワークの追加を提案します。
結果として得られる Deep W-Networks (DWN) アプローチを、広く受け入れられている 2 つの多目的 RL ベンチマーク (深海の宝物と多目的マウンテン カー) で評価します。
DWN が複数のポリシー間の競合を解決しながら、DQN ソリューションの形でベースラインを上回ることを示します。
さらに、提案されたアルゴリズムがテストされた両方の環境でパレート フロントを見つけることができることを示します。
要約(オリジナル)
In this paper, we build on advances introduced by the Deep Q-Networks (DQN) approach to extend the multi-objective tabular Reinforcement Learning (RL) algorithm W-learning to large state spaces. W-learning algorithm can naturally solve the competition between multiple single policies in multi-objective environments. However, the tabular version does not scale well to environments with large state spaces. To address this issue, we replace underlying Q-tables with DQN, and propose an addition of W-Networks, as a replacement for tabular weights (W) representations. We evaluate the resulting Deep W-Networks (DWN) approach in two widely-accepted multi-objective RL benchmarks: deep sea treasure and multi-objective mountain car. We show that DWN solves the competition between multiple policies while outperforming the baseline in the form of a DQN solution. Additionally, we demonstrate that the proposed algorithm can find the Pareto front in both tested environments.
arxiv情報
著者 | Jernej Hribar,Luke Hackett,Ivana Dusparic |
発行日 | 2023-02-23 16:41:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google