要約
【タイトル】強化学習において外部アドバイスを組み込むためのバンディットベースポリシー不変明示的シェーピング
【要約】
– 強化学習において、外部アドバイスを組み込むことは難しい課題。
– アルゴリズムには、ポリシー不変性を維持し、エージェントの学習を促進し、任意のアドバイスから学習を行う能力が必要。
– この論文は、外部アドバイスを強化学習に組み込む問題を、シェーピングバンディットと呼ばれる多腕バンディットとして定式化する。
– シェーピングバンディットの各腕の報酬は、エキスパートに従って得られるリターン、または真の環境報酬で学習するデフォルトのRLアルゴリズムに従って得られるリターンに対応する。
– 既存のバンディットやシェーピングアルゴリズムを直接適用すると、基礎となるリターンの非定常性に関する理由がないため、結果が悪化することがある。
– UCB-PIES、Racing-PIES、Lazy PIESなど、長期的な影響を考慮した異なる仮定に基づく3つの異なるシェーピングアルゴリズムを提案する。
– 4つの異なる設定での実験により、これらの提案されたアルゴリズムは目標を達成するが、他のアルゴリズムは失敗することが示された。
要約(オリジナル)
A key challenge for a reinforcement learning (RL) agent is to incorporate external/expert1 advice in its learning. The desired goals of an algorithm that can shape the learning of an RL agent with external advice include (a) maintaining policy invariance; (b) accelerating the learning of the agent; and (c) learning from arbitrary advice [3]. To address this challenge this paper formulates the problem of incorporating external advice in RL as a multi-armed bandit called shaping-bandits. The reward of each arm of shaping bandits corresponds to the return obtained by following the expert or by following a default RL algorithm learning on the true environment reward.We show that directly applying existing bandit and shaping algorithms that do not reason about the non-stationary nature of the underlying returns can lead to poor results. Thus we propose UCB-PIES (UPIES), Racing-PIES (RPIES), and Lazy PIES (LPIES) three different shaping algorithms built on different assumptions that reason about the long-term consequences of following the expert policy or the default RL algorithm. Our experiments in four different settings show that these proposed algorithms achieve the above-mentioned goals whereas the other algorithms fail to do so.
arxiv情報
著者 | Yash Satsangi,Paniz Behboudian |
発行日 | 2023-04-14 14:35:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI