Demonstration Guided Multi-Objective Reinforcement Learning

要約

多目的強化学習 (MORL) は、複数の目的間のトレードオフを必要とする現実世界のシナリオに似ているため、その関連性が高まっています。
多様なユーザーの好みに応えるため、従来の強化学習は MORL において大きな課題に直面しています。
MORL でゼロからトレーニング ポリシーを作成する難しさに対処するために、デモガイド付き多目的強化学習 (DG-MORL) を導入します。
この新しいアプローチは、以前のデモンストレーションを利用し、コーナーウェイトサポートを介してユーザーの好みに合わせ、次善のデモンストレーションを改良するための自己進化メカニズムを組み込んでいます。
私たちの実証研究は、既存の MORL アルゴリズムに対する DG-MORL の優位性を実証し、特に困難な条件下での堅牢性と有効性を確立しています。
また、アルゴリズムのサンプル複雑さの上限も提供します。

要約(オリジナル)

Multi-objective reinforcement learning (MORL) is increasingly relevant due to its resemblance to real-world scenarios requiring trade-offs between multiple objectives. Catering to diverse user preferences, traditional reinforcement learning faces amplified challenges in MORL. To address the difficulty of training policies from scratch in MORL, we introduce demonstration-guided multi-objective reinforcement learning (DG-MORL). This novel approach utilizes prior demonstrations, aligns them with user preferences via corner weight support, and incorporates a self-evolving mechanism to refine suboptimal demonstrations. Our empirical studies demonstrate DG-MORL’s superiority over existing MORL algorithms, establishing its robustness and efficacy, particularly under challenging conditions. We also provide an upper bound of the algorithm’s sample complexity.

arxiv情報

著者 Junlin Lu,Patrick Mannion,Karl Mason
発行日 2024-04-05 10:19:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク