UCB-driven Utility Function Search for Multi-objective Reinforcement Learning

要約

多目的強化学習 (MORL) では、エージェントは複数の、場合によっては矛盾する目的間でトレードオフする意思決定行動を最適化する任務を負います。
分解に基づく MORL は、政策のパレート フロントを近似するために、多数の効用関数を使用して多目的問題を同時に解決される個別の単一目的問題に分解する一連の解法です。
重みベクトル w によってパラメータ化された線形効用関数の場合に焦点を当てます。
結果として得られるパレート フロントのハイパーボリュームを最大化することを目的として、学習プロセスのさまざまな段階で最も有望な重みベクトルを効率的に検索するための上限信頼限界に基づく方法を導入します。
提案された方法は、さまざまなランダム シードにわたる Mujoco ベンチマーク問題でさまざまな MORL ベースラインを上回るパフォーマンスを示すことが示されています。
コードはオンラインで https://github.com/SYCAMORE-1/ucb-MOPPO にあります。

要約(オリジナル)

In Multi-objective Reinforcement Learning (MORL) agents are tasked with optimising decision-making behaviours that trade-off between multiple, possibly conflicting, objectives. MORL based on decomposition is a family of solution methods that employ a number of utility functions to decompose the multi-objective problem into individual single-objective problems solved simultaneously in order to approximate a Pareto front of policies. We focus on the case of linear utility functions parameterised by weight vectors w. We introduce a method based on Upper Confidence Bound to efficiently search for the most promising weight vectors during different stages of the learning process, with the aim of maximising the hypervolume of the resulting Pareto front. The proposed method is shown to outperform various MORL baselines on Mujoco benchmark problems across different random seeds. The code is online at: https://github.com/SYCAMORE-1/ucb-MOPPO.

arxiv情報

著者 Yucheng Shi,Alexandros Agapitos,David Lynch,Giorgio Cruciata,Cengis Hasan,Hao Wang,Yayu Yao,Aleksandar Milenovic
発行日 2024-05-16 14:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク