要約
現実世界の強化学習 (RL) では、エージェントが自分自身や他人に害を及ぼさずに探索できる手順の開発が必要です。
安全な RL の問題に対する最も成功したソリューションは、オフライン データを活用してセーフセットを学習し、安全なオンライン探索を可能にします。
ただし、安全な学習へのこのアプローチは、学習に利用できるデモンストレーションによって制限されることがよくあります。
この論文では、オフラインでの初期安全学習問題のトレーニングに使用されるデータの量と質が、オンラインで安全な RL ポリシーを学習する能力に与える影響を調査します。
具体的には、利用可能なデモンストレーションがほとんどまたはまったくない、空間的に拡張された目標状態を持つタスクに焦点を当てます。
従来、この問題は、手動で設計されたコントローラーを使用してデータを生成するか、ユーザーが作成したデモンストレーションを収集することによって解決されます。
ただし、これらの方法は高価であることが多く、より複雑なタスクや環境には拡張できません。
この制限に対処するために、手動で設計されたコントローラーやユーザーのデモンストレーションを必要とせずに、複雑でスケーラブルなポリシーを学習できる、教師なし RL ベースのオフライン データ収集手順を提案します。
私たちの研究は、エージェントがオンラインで最適なセーフ RL ポリシーを学習するための十分なデモンストレーションを提供することの重要性を実証し、その結果、データが限られたシナリオで実用的な新しいオンライン セーフ RL アプローチである楽観的忘却を提案します。
さらに、当社の教師なしデータ収集アプローチは、安全なオンライン探索のために多様性と最適性のバランスをとる必要性を強調しています。
要約(オリジナル)
Reinforcement learning (RL) in the real world necessitates the development of procedures that enable agents to explore without causing harm to themselves or others. The most successful solutions to the problem of safe RL leverage offline data to learn a safe-set, enabling safe online exploration. However, this approach to safe-learning is often constrained by the demonstrations that are available for learning. In this paper we investigate the influence of the quantity and quality of data used to train the initial safe learning problem offline on the ability to learn safe-RL policies online. Specifically, we focus on tasks with spatially extended goal states where we have few or no demonstrations available. Classically this problem is addressed either by using hand-designed controllers to generate data or by collecting user-generated demonstrations. However, these methods are often expensive and do not scale to more complex tasks and environments. To address this limitation we propose an unsupervised RL-based offline data collection procedure, to learn complex and scalable policies without the need for hand-designed controllers or user demonstrations. Our research demonstrates the significance of providing sufficient demonstrations for agents to learn optimal safe-RL policies online, and as a result, we propose optimistic forgetting, a novel online safe-RL approach that is practical for scenarios with limited data. Further, our unsupervised data collection approach highlights the need to balance diversity and optimality for safe online exploration.
arxiv情報
著者 | Alexander Quessy,Thomas Richardson,Sebastian East |
発行日 | 2025-01-08 13:04:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google