要約
安全な強化学習 (RL) エージェントは、特定の制約を遵守しながら、指定されたタスクを達成します。
理解しやすい人間の言語で表現された制約を採用すると、アクセシビリティとドメインの専門知識に依存しないため、現実世界のアプリケーションに大きな可能性がもたらされます。
自然言語制約を伴う以前の安全な RL 手法は通常、リカレント ニューラル ネットワークを採用しており、さまざまな形式の人間の言語入力を処理する際に機能が制限されます。
さらに、これらの方法では多くの場合、グラウンドトゥルースのコスト関数が必要となるため、言語制約を、制約違反を判断する明確に定義されたコスト関数に変換するための専門知識が必要になります。
これらの問題に対処するために、事前トレーニングされた言語モデル (LM) を使用して、RL エージェントによる自然言語制約の理解を促進し、安全なポリシー学習のコストを推測できるようにすることを提案します。
事前トレーニングされた LM の使用とグラウンドトゥルース コストの必要性の排除により、私たちの方法は、人間由来の自由形式の自然言語のさまざまな制約の下での安全なポリシー学習を強化します。
グリッドワールドナビゲーションとロボット制御に関する実験は、提案された方法が与えられた制約を遵守しながら強力なパフォーマンスを達成できることを示しています。
事前トレーニングされた LM を使用することで、トレーニングまたは評価のどの段階でもグラウンド トゥルース コストを必要とせずに、複雑な制約を理解し、安全なポリシーを学習することができます。
当社のメソッドの各部分の有効性を実証するために、広範なアブレーション研究が実施されています。
要約(オリジナル)
Safe reinforcement learning (RL) agents accomplish given tasks while adhering to specific constraints. Employing constraints expressed via easily-understandable human language offers considerable potential for real-world applications due to its accessibility and non-reliance on domain expertise. Previous safe RL methods with natural language constraints typically adopt a recurrent neural network, which leads to limited capabilities when dealing with various forms of human language input. Furthermore, these methods often require a ground-truth cost function, necessitating domain expertise for the conversion of language constraints into a well-defined cost function that determines constraint violation. To address these issues, we proposes to use pre-trained language models (LM) to facilitate RL agents’ comprehension of natural language constraints and allow them to infer costs for safe policy learning. Through the use of pre-trained LMs and the elimination of the need for a ground-truth cost, our method enhances safe policy learning under a diverse set of human-derived free-form natural language constraints. Experiments on grid-world navigation and robot control show that the proposed method can achieve strong performance while adhering to given constraints. The usage of pre-trained LMs allows our method to comprehend complicated constraints and learn safe policies without the need for ground-truth cost at any stage of training or evaluation. Extensive ablation studies are conducted to demonstrate the efficacy of each part of our method.
arxiv情報
著者 | Xingzhou Lou,Junge Zhang,Ziyan Wang,Kaiqi Huang,Yali Du |
発行日 | 2024-05-15 12:08:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google