Meta SAC-Lag: Towards Deployable Safe Reinforcement Learning via MetaGradient-based Hyperparameter Tuning

要約

安全強化学習 (Safe RL) は、実世界のシステムに導入することを目的として、試行錯誤ベースの手法の広く研究されているサブカテゴリーの 1 つです。
安全な RL の目標は、制約を最小限に抑えながら報酬パフォーマンスを最大化することであり、多くの場合、制約関数に境界を設定し、ラグランジュ法を利用することで達成されます。
ただし、ラグランジュ ベースの安全な RL を現実世界のシナリオに導入することは、不正確な調整が最適ではないポリシーの収束につながる可能性があるため、しきい値の微調整が必​​要なため困難です。
この課題を軽減するために、Meta Soft Actor-Critic Lagrangian (Meta SAC-Lag) と呼ばれる統合されたラグランジュ ベースのモデルフリー アーキテクチャを提案します。
Meta SAC-Lag は、メタ勾配最適化を使用して、安全関連のハイパーパラメーターを自動的に更新します。
提案された方法は、最小限のハイパーパラメータ調整要件で安全な探索としきい値調整に対処するように設計されています。
私たちのパイプラインでは、内部パラメーターは従来の定式化を通じて更新され、ハイパーパラメーターは更新されたパラメーターに基づいて定義されたメタ目標を使用して調整されます。
私たちの結果は、安全閾値の収束速度が比較的速いため、エージェントが安全性能を確実に調整できることを示しています。
私たちは、ラグランジュ ベースラインに対して 5 つのシミュレートされた環境で Meta SAC-Lag のパフォーマンスを評価しました。その結果は、パラメーター間の相乗効果を生み出し、より優れた、または競争力のある結果を生み出す機能を実証しました。
さらに、ロボットアームを使ってコーヒーをこぼさずにカップに注ぐという現実の実験も行っています。
Meta SAC-Lag は、労力の制約を最小限に抑えながら、タスクを実行するように正常にトレーニングされています。

要約(オリジナル)

Safe Reinforcement Learning (Safe RL) is one of the prevalently studied subcategories of trial-and-error-based methods with the intention to be deployed on real-world systems. In safe RL, the goal is to maximize reward performance while minimizing constraints, often achieved by setting bounds on constraint functions and utilizing the Lagrangian method. However, deploying Lagrangian-based safe RL in real-world scenarios is challenging due to the necessity of threshold fine-tuning, as imprecise adjustments may lead to suboptimal policy convergence. To mitigate this challenge, we propose a unified Lagrangian-based model-free architecture called Meta Soft Actor-Critic Lagrangian (Meta SAC-Lag). Meta SAC-Lag uses meta-gradient optimization to automatically update the safety-related hyperparameters. The proposed method is designed to address safe exploration and threshold adjustment with minimal hyperparameter tuning requirement. In our pipeline, the inner parameters are updated through the conventional formulation and the hyperparameters are adjusted using the meta-objectives which are defined based on the updated parameters. Our results show that the agent can reliably adjust the safety performance due to the relatively fast convergence rate of the safety threshold. We evaluate the performance of Meta SAC-Lag in five simulated environments against Lagrangian baselines, and the results demonstrate its capability to create synergy between parameters, yielding better or competitive results. Furthermore, we conduct a real-world experiment involving a robotic arm tasked with pouring coffee into a cup without spillage. Meta SAC-Lag is successfully trained to execute the task, while minimizing effort constraints.

arxiv情報

著者 Homayoun Honari,Amir Mehdi Soufi Enayati,Mehran Ghafarian Tamizi,Homayoun Najjaran
発行日 2024-08-15 06:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク