要約
この論文では、安全な強化学習のための正式なモデルに依存しないメタ学習フレームワークを提案します。
私たちのフレームワークは、ますますリスクの高いタスクが進行する中で親が子供たちをどのように守り、タスクからタスクへと引き継がれる安全感を与える方法からインスピレーションを得ています。
これをメタ学習プロセスとしてモデル化します。このプロセスでは、各タスクが安全性を監視し、エージェントに報酬信号を提供する安全装置と同期されます。
安全装置は、安全仕様に基づいた有限状態マシンとして実装されます。
報酬信号はこの仕様に基づいて正式に形成されます。
安全仕様とそれに対応する保護手段は任意に複雑かつ非マルコフにすることができ、これによりトレーニング プロセスに柔軟性が加わり、学習されたポリシーに説明可能性が追加されます。
セーフガードの設計は手動ですが、高レベルでモデルに依存しないため、ピクセルレベルのゲーム制御から言語モデルの微調整まで、幅広い適用性を備えたエンドツーエンドの安全な学習アプローチが生まれます。
与えられた一連の安全仕様 (タスク) から開始して、少数のトレーニング サンプルのみを使用して新しい仕様に適応できるようにモデルをトレーニングします。
これは、タスク間で安全性バイアスを効率的に転送する当社の手法によって可能になり、安全性違反の数を効果的に最小限に抑えます。
私たちは、Minecraft からインスピレーションを得た Gridworld、VizDoom ゲーム環境、LLM 微調整アプリケーションでフレームワークを評価します。
私たちのアプローチで訓練されたエージェントは、安全違反を最小限に抑えていますが、ベースラインではパフォーマンスが低下していることが示されています。
要約(オリジナル)
In this paper we propose a formal, model-agnostic meta-learning framework for safe reinforcement learning. Our framework is inspired by how parents safeguard their children across a progression of increasingly riskier tasks, imparting a sense of safety that is carried over from task to task. We model this as a meta-learning process where each task is synchronized with a safeguard that monitors safety and provides a reward signal to the agent. The safeguard is implemented as a finite-state machine based on a safety specification; the reward signal is formally shaped around this specification. The safety specification and its corresponding safeguard can be arbitrarily complex and non-Markovian, which adds flexibility to the training process and explainability to the learned policy. The design of the safeguard is manual but it is high-level and model-agnostic, which gives rise to an end-to-end safe learning approach with wide applicability, from pixel-level game control to language model fine-tuning. Starting from a given set of safety specifications (tasks), we train a model such that it can adapt to new specifications using only a small number of training samples. This is made possible by our method for efficiently transferring safety bias between tasks, which effectively minimizes the number of safety violations. We evaluate our framework in a Minecraft-inspired Gridworld, a VizDoom game environment, and an LLM fine-tuning application. Agents trained with our approach achieve near-minimal safety violations, while baselines are shown to underperform.
arxiv情報
著者 | Nabil Omi,Hosein Hasanbeig,Hiteshi Sharma,Sriram K. Rajamani,Siddhartha Sen |
発行日 | 2024-10-31 16:28:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google