Guided Online Distillation: Promoting Safe Reinforcement Learning by Offline Demonstration

要約

安全な強化学習 (RL) は、コストの制約を満たしながら高い報酬を達成するポリシーを見つけることを目的としています。
スクラッチから学習する場合、安全な RL エージェントは過度に保守的になる傾向があり、探索が妨げられ、全体的なパフォーマンスが抑制されます。
多くの現実的なタスクでは、例えば
自動運転、大規模な専門家による実証データが入手可能です。
私たちは、オフライン データから専門家のポリシーを抽出してオンライン探索をガイドすることが、保全の問題を軽減する有望な解決策であると主張します。
大容量モデル
デシジョントランスフォーマー (DT) は、オフラインでのポリシー学習に能力があることが証明されています。
ただし、現実のシナリオで収集されたデータには危険なケース (衝突など) が含まれることはほとんどないため、政策が安全概念を学習することは困難です。
さらに、これらの一括ポリシー ネットワークは、自動運転などの現実世界のタスクの推論時の計算速度要件を満たすことができません。
この目的を達成するために、オフラインからオンラインへの安全な RL フレームワークである Guided Online Distillation (GOLD) を提案します。
GOLD は、ガイド付きのオンライン安全な RL トレーニングを通じて、オフライン DT ポリシーを軽量なポリシー ネットワークに抽出します。これは、オフライン DT ポリシーとオンラインの安全な RL アルゴリズムの両方を上回ります。
Waymo Open Motion Dataset (WOMD) に基づくベンチマーク安全 RL タスクと現実世界の運転タスクの両方での実験により、GOLD が軽量ポリシーをうまく抽出し、安全性が重要な困難なシナリオにおいて意思決定の問題を解決できることが実証されました。

要約(オリジナル)

Safe Reinforcement Learning (RL) aims to find a policy that achieves high rewards while satisfying cost constraints. When learning from scratch, safe RL agents tend to be overly conservative, which impedes exploration and restrains the overall performance. In many realistic tasks, e.g. autonomous driving, large-scale expert demonstration data are available. We argue that extracting expert policy from offline data to guide online exploration is a promising solution to mitigate the conserveness issue. Large-capacity models, e.g. decision transformers (DT), have been proven to be competent in offline policy learning. However, data collected in real-world scenarios rarely contain dangerous cases (e.g., collisions), which makes it prohibitive for the policies to learn safety concepts. Besides, these bulk policy networks cannot meet the computation speed requirements at inference time on real-world tasks such as autonomous driving. To this end, we propose Guided Online Distillation (GOLD), an offline-to-online safe RL framework. GOLD distills an offline DT policy into a lightweight policy network through guided online safe RL training, which outperforms both the offline DT policy and online safe RL algorithms. Experiments in both benchmark safe RL tasks and real-world driving tasks based on the Waymo Open Motion Dataset (WOMD) demonstrate that GOLD can successfully distill lightweight policies and solve decision-making problems in challenging safety-critical scenarios.

arxiv情報

著者 Jinning Li,Xinyi Liu,Banghua Zhu,Jiantao Jiao,Masayoshi Tomizuka,Chen Tang,Wei Zhan
発行日 2023-10-12 23:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク