ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization

要約

報酬形状は、特にまばらな報酬が学習を妨げる複雑なタスクでは、強化学習(RL)で重要です。
ただし、一連の報酬機能を計算上効率的な方法で効果的に形作る報酬を選択することは、オープンな課題のままです。
オンラインモデル選択の問題として報酬機能の選択を構成する斬新なアプローチであるオンライン報酬選択とポリシー最適化(ORSO)を提案します。
Orsoは、人間の介入なしにパフォーマンスを形作る報酬機能を自動的に識別し、証明された後悔の保証を受けています。
さまざまな連続制御タスクにわたるORSOの有効性を示します。
以前のアプローチと比較して、シェーピング報酬関数を評価するために必要なデータの量を大幅に削減し、その結果、優れたデータ効率と計算時間が大幅に短縮されます(最大8倍)。
ORSOは、以前の方法を50%以上上回る高品質の報酬関数を一貫して識別し、平均して、ドメインの専門家による手動で設計された報酬関数を使用して学習したものと同じようにパフォーマンスを特定します。

要約(オリジナル)

Reward shaping is critical in reinforcement learning (RL), particularly for complex tasks where sparse rewards can hinder learning. However, choosing effective shaping rewards from a set of reward functions in a computationally efficient manner remains an open challenge. We propose Online Reward Selection and Policy Optimization (ORSO), a novel approach that frames the selection of shaping reward function as an online model selection problem. ORSO automatically identifies performant shaping reward functions without human intervention with provable regret guarantees. We demonstrate ORSO’s effectiveness across various continuous control tasks. Compared to prior approaches, ORSO significantly reduces the amount of data required to evaluate a shaping reward function, resulting in superior data efficiency and a significant reduction in computational time (up to 8 times). ORSO consistently identifies high-quality reward functions outperforming prior methods by more than 50% and on average identifies policies as performant as the ones learned using manually engineered reward functions by domain experts.

arxiv情報

著者 Chen Bo Calvin Zhang,Zhang-Wei Hong,Aldo Pacchiano,Pulkit Agrawal
発行日 2025-02-25 06:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク