要約
現代のサイバーフィジカルシステムは、モデル化がますます複雑になってきているため、適切な制御エージェントを見つけるための強化学習(RL)のようなデータ駆動技術を動機付ける。しかし、ほとんどのシステムは、安全性や運用上の制約などのハードな制約を受けている。通常、これらの制約を満足するように学習するためには、エージェントは体系的に制約に違反しなければならないが、これはほとんどのシステムにおいて計算上不可能である。最近の取り組みでは、エージェントの実行不可能な行動提案をシステムに適用することを避けるために、提案された行動が実行可能かどうかを評価する実行可能性モデルを利用することを目指している。しかしながら、これらの取り組みは、エージェントの学習効率よりも、制約充足の保証に焦点を当てている。学習プロセスを改善するために、我々はアクションマッピングを導入する。アクションマッピングは、学習プロセスを2つのステップに分割する新しいアプローチである。本論文では、実現可能性モデルの自己教師付き問い合わせにより、全ての実現可能な行動を生成することを学習することで、実現可能性の部分に焦点を当てる。問題を分布マッチング問題として定式化し、異なる発散度に対する勾配推定量を導出することにより、エージェントを訓練する。例示的な例として、ロボットの経路計画シナリオと、ロボットの把持シミュレーションを通して、エージェントが、断絶した実現可能行動集合にまたがって行動を生成することに熟達していることを示す。実現可能性のステップに取り組むことで、アクションマッピングの目的部分に今後の研究の焦点を当てることが可能となり、安全かつ効率的なRLフレームワークへの道を開く。
要約(オリジナル)
Modern cyber-physical systems are becoming increasingly complex to model, thus motivating data-driven techniques such as reinforcement learning (RL) to find appropriate control agents. However, most systems are subject to hard constraints such as safety or operational bounds. Typically, to learn to satisfy these constraints, the agent must violate them systematically, which is computationally prohibitive in most systems. Recent efforts aim to utilize feasibility models that assess whether a proposed action is feasible to avoid applying the agent’s infeasible action proposals to the system. However, these efforts focus on guaranteeing constraint satisfaction rather than the agent’s learning efficiency. To improve the learning process, we introduce action mapping, a novel approach that divides the learning process into two steps: first learn feasibility and subsequently, the objective by mapping actions into the sets of feasible actions. This paper focuses on the feasibility part by learning to generate all feasible actions through self-supervised querying of the feasibility model. We train the agent by formulating the problem as a distribution matching problem and deriving gradient estimators for different divergences. Through an illustrative example, a robotic path planning scenario, and a robotic grasping simulation, we demonstrate the agent’s proficiency in generating actions across disconnected feasible action sets. By addressing the feasibility step, this paper makes it possible to focus future work on the objective part of action mapping, paving the way for an RL framework that is both safe and efficient.
arxiv情報
著者 | Mirco Theile,Daniele Bernardini,Raphael Trumpp,Cristina Piazza,Marco Caccamo,Alberto L. Sangiovanni-Vincentelli |
発行日 | 2024-07-05 13:57:34+00:00 |
arxivサイト | arxiv_id(pdf) |