FOSP: Fine-tuning Offline Safe Policy through World Models

要約

オフライン安全強化学習(RL)は、静的なデータセットから学習し、探索を制限することで、安全性の制約に対処しようとしている。しかし、これらのアプローチはデータセットに大きく依存しており、未知のシナリオに安全に汎化することに苦労している。本論文では、オフラインで事前学習されたポリシーをオンラインで微調整することにより、視覚ベースのロボットタスクの展開中の安全性を向上させることを目指す。効果的な微調整を容易にするために、データ効率で知られるモデルベースRLを導入する。具体的には、本手法は、オフラインでの学習効率を向上させるためにサンプル内最適化を用いると同時に、安全性を確保するために到達可能性ガイダンスを組み込む。オフラインで安全なポリシーを得た後、安全なポリシー拡張アプローチをオンライン微調整のために活用する。本手法の性能は、5つの視覚のみのタスクによるシミュレーションベンチマークと、限られたデータを用いた実際のロボット展開により検証される。その結果、我々のアプローチは、安全性に制約のある未知のシナリオに対するオフラインポリシーの汎化を大幅に改善することが実証された。我々の知る限り、これは安全な汎化タスクのためのオフラインからオンラインへのRLを探求した最初の研究である。

要約(オリジナル)

Offline Safe Reinforcement Learning (RL) seeks to address safety constraints by learning from static datasets and restricting exploration. However, these approaches heavily rely on the dataset and struggle to generalize to unseen scenarios safely. In this paper, we aim to improve safety during the deployment of vision-based robotic tasks through online fine-tuning an offline pretrained policy. To facilitate effective fine-tuning, we introduce model-based RL, which is known for its data efficiency. Specifically, our method employs in-sample optimization to improve offline training efficiency while incorporating reachability guidance to ensure safety. After obtaining an offline safe policy, a safe policy expansion approach is leveraged for online fine-tuning. The performance of our method is validated on simulation benchmarks with five vision-only tasks and through real-world robot deployment using limited data. It demonstrates that our approach significantly improves the generalization of offline policies to unseen safety-constrained scenarios. To the best of our knowledge, this is the first work to explore offline-to-online RL for safe generalization tasks.

arxiv情報

著者 Chenyang Cao,Yucheng Xin,Silang Wu,Longxiang He,Zichen Yan,Junbo Tan,Xueqian Wang
発行日 2025-03-02 11:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク