Learning Soft Constraints From Constrained Expert Demonstrations

要約

タイトル:Constrained Expert Demonstrationsから制約を学習する方法

要約:

– リワード関数に従ったエージェントの振る舞いを逆推定するIRL方法では、エキスパートデータはリワード関数に最適化されたエージェントによって生成されると仮定されている。
– しかし、多くの場合、エージェントは制約条件の下でリワード関数を最適化するため、制約条件は単にリワード関数だけでは表現しにくい振る舞いを引き起こすことがある。
– 本研究では、リワード関数は既知であり、制約条件は未知である場合に、エキスパートデータからこれらの制約条件を十分に回復する方法を提案する。
– 以前の研究はハード制約の回復に焦点を当てていたが、本研究ではエージェントがエピソードごとに平均して満たす累積的なソフト制約を回復することができる。
– IRLスタイルで、制約関数を反復的に調整し、エージェントの振る舞いがエキスパートの振る舞いに一致するまで制約最適化手順を解決する方法を提案する。
– このアプローチを人工環境、ロボット環境、およびリアルワールドの高速道路運転シナリオで実証する。

要約(オリジナル)

Inverse reinforcement learning (IRL) methods assume that the expert data is generated by an agent optimizing some reward function. However, in many settings, the agent may optimize a reward function subject to some constraints, where the constraints induce behaviors that may be otherwise difficult to express with just a reward function. We consider the setting where the reward function is given, and the constraints are unknown, and propose a method that is able to recover these constraints satisfactorily from the expert data. While previous work has focused on recovering hard constraints, our method can recover cumulative soft constraints that the agent satisfies on average per episode. In IRL fashion, our method solves this problem by adjusting the constraint function iteratively through a constrained optimization procedure, until the agent behavior matches the expert behavior. We demonstrate our approach on synthetic environments, robotics environments and real world highway driving scenarios.

arxiv情報

著者 Ashish Gaurav,Kasra Rezaee,Guiliang Liu,Pascal Poupart
発行日 2023-04-27 19:26:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク