Maximum Causal Entropy Inverse Constrained Reinforcement Learning

要約

タイトル:最大因果エントロピー反転制約強化学習
要約:
– 人工エージェントを人間と相互作用する現実世界で展開する際に、その振る舞いがその環境の価値観、社会的規範、またはその他の要件に一致することが重要です。
– しかしながら、多くの環境には明示的に特定することが困難な暗黙的な制約があり、学習エージェントに転送することが難しい。
– この課題に対処するため、最大因果エントロピーの原理を利用して、制約を学習し、制約に従うエージェントのデモを使用して、制約に対応する最適方策を学習する新しい方法を提案します。
– 表形式の設定で収束を証明し、複雑な環境にスケーリングできる近似を提供します。
– 学習されたポリシーの効果を、受け取った報酬と制約違反の数によって評価し、他のエージェントへの転送性に基づいて学習されたコスト関数を評価します。
– 私たちの方法は、様々なタスクと環境で最先端のアプローチを凌駕することが示され、確率的なダイナミクスと連続的な状態-行動空間を持つ問題に対処できます。

要約(オリジナル)

When deploying artificial agents in real-world environments where they interact with humans, it is crucial that their behavior is aligned with the values, social norms or other requirements of that environment. However, many environments have implicit constraints that are difficult to specify and transfer to a learning agent. To address this challenge, we propose a novel method that utilizes the principle of maximum causal entropy to learn constraints and an optimal policy that adheres to these constraints, using demonstrations of agents that abide by the constraints. We prove convergence in a tabular setting and provide an approximation which scales to complex environments. We evaluate the effectiveness of the learned policy by assessing the reward received and the number of constraint violations, and we evaluate the learned cost function based on its transferability to other agents. Our method has been shown to outperform state-of-the-art approaches across a variety of tasks and environments, and it is able to handle problems with stochastic dynamics and a continuous state-action space.

arxiv情報

著者 Mattijs Baert,Pietro Mazzaglia,Sam Leroux,Pieter Simoens
発行日 2023-05-04 14:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク