要約
報酬形成は強化学習 (RL) の重要な要素であり、特に報酬がまばらであると学習が妨げられる複雑なタスクの場合には重要です。
追加のガイダンスを提供するためにシェーピング報酬が導入されましたが、効果的なシェーピング関数を選択することは依然として困難であり、計算コストが高くなります。
この論文では、オンライン報酬選択とポリシー最適化 (ORSO) を紹介します。これは、報酬選択の形成をオンライン モデル選択問題として組み立てる新しいアプローチです。
ORSO は原則に基づいた探索戦略を採用し、人間の介入なしに有望な形成報酬関数を自動的に特定し、証明可能な後悔の保証によって探索と活用のバランスをとります。
Isaac Gym シミュレーターを使用して、さまざまな連続制御タスクにわたる ORSO の有効性を実証します。
各成形報酬関数を完全に評価する従来の方法と比較して、ORSO はサンプル効率を大幅に向上させ、計算時間を短縮し、手作業で報酬をエンジニアリングしてドメインの専門家によって生成されたポリシーに匹敵するポリシーを生成する高品質の報酬関数を一貫して特定します。
要約(オリジナル)
Reward shaping is a critical component in reinforcement learning (RL), particularly for complex tasks where sparse rewards can hinder learning. While shaping rewards have been introduced to provide additional guidance, selecting effective shaping functions remains challenging and computationally expensive. This paper introduces Online Reward Selection and Policy Optimization (ORSO), a novel approach that frames shaping reward selection as an online model selection problem. ORSO employs principled exploration strategies to automatically identify promising shaping reward functions without human intervention, balancing exploration and exploitation with provable regret guarantees. We demonstrate ORSO’s effectiveness across various continuous control tasks using the Isaac Gym simulator. Compared to traditional methods that fully evaluate each shaping reward function, ORSO significantly improves sample efficiency, reduces computational time, and consistently identifies high-quality reward functions that produce policies comparable to those generated by domain experts through hand-engineered rewards.
arxiv情報
著者 | Chen Bo Calvin Zhang,Zhang-Wei Hong,Aldo Pacchiano,Pulkit Agrawal |
発行日 | 2024-10-17 17:55:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google