要約
過去 10 年間、強化学習は、囲碁ボード ゲームのような複雑な制御タスクや意思決定の問題を解決することに成功しました。
しかし、これらのアルゴリズムを現実世界のシナリオに導入する場合の成功例はほとんどありません。
その理由の 1 つは、重要な制御エンジニアリング システムの基本要件である、危険な状態に対処および回避する際の保証が欠如していることです。
このペーパーでは、安全制約の違反を最小限に抑えてシステムを制御する方法を学習できるモデルベースの RL アプローチである Guided Safe Shooting (GuSS) を紹介します。
モデルは、システムの動作中に反復バッチ方式で収集されたデータに基づいて学習され、各タイム ステップで実行する最適なアクションを計画するために使用されます。
私たちは 3 つの異なる安全プランナーを提案します。1 つは単純なランダム射撃戦略に基づいており、2 つはより高度な発散探索アルゴリズムである MAP-Elites に基づいています。
実験によると、これらのプランナーは、学習エージェントが状態空間を最大限に探索しながら、危険な状況を回避するのに役立ちます。これは、システムの正確なモデルを学習する際に必要な側面です。
さらに、モデルを使用しないアプローチと比較して、モデルを学習することで、GuSS は実際のシステムとの対話回数を削減しながら、エンジニアリング システムを扱う際の基本的な要件である高い報酬を達成できます。
要約(オリジナル)
In the last decade, reinforcement learning successfully solved complex control tasks and decision-making problems, like the Go board game. Yet, there are few success stories when it comes to deploying those algorithms to real-world scenarios. One of the reasons is the lack of guarantees when dealing with and avoiding unsafe states, a fundamental requirement in critical control engineering systems. In this paper, we introduce Guided Safe Shooting (GuSS), a model-based RL approach that can learn to control systems with minimal violations of the safety constraints. The model is learned on the data collected during the operation of the system in an iterated batch fashion, and is then used to plan for the best action to perform at each time step. We propose three different safe planners, one based on a simple random shooting strategy and two based on MAP-Elites, a more advanced divergent-search algorithm. Experiments show that these planners help the learning agent avoid unsafe situations while maximally exploring the state space, a necessary aspect when learning an accurate model of the system. Furthermore, compared to model-free approaches, learning a model allows GuSS reducing the number of interactions with the real-system while still reaching high rewards, a fundamental requirement when handling engineering systems.
arxiv情報
著者 | Giuseppe Paolo,Jonas Gonzalez-Billandon,Albert Thomas,Balázs Kégl |
発行日 | 2024-09-12 12:54:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google