MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention

要約

ロボットの動作を人間の好みに合わせることが、人間中心の環境に身体化された AI エージェントを展開するために重要です。
有望な解決策は、人間の介入から学習する対話型の模倣です。人間の専門家がポリシーの実行を観察し、フィードバックとして介入を提供します。
ただし、既存の方法では学習を促進するために以前のポリシーを効率的に利用できないことが多く、サンプル効率が妨げられます。
この研究では、人間の介入によるサンプル効率の高い位置合わせのために設計された MEReQ (最大エントロピー残差 Q 逆強化学習) を紹介します。
MEReQ は、完全な人間の行動特性を推論する代わりに、人間の専門家の報酬関数と以前のポリシーの基礎となる報酬関数との間の不一致を捕捉する残差報酬関数を推測します。
次に、残差 Q ラーニング (RQL) を採用し、この残差報酬関数を使用してポリシーを人間の好みに合わせます。
シミュレートされたタスクと現実世界のタスクに関する広範な評価により、MEReQ が人間の介入によりサンプル効率の高いポリシー調整を達成していることが実証されています。

要約(オリジナル)

Aligning robot behavior with human preferences is crucial for deploying embodied AI agents in human-centered environments. A promising solution is interactive imitation learning from human intervention, where a human expert observes the policy’s execution and provides interventions as feedback. However, existing methods often fail to utilize the prior policy efficiently to facilitate learning, thus hindering sample efficiency. In this work, we introduce MEReQ (Maximum-Entropy Residual-Q Inverse Reinforcement Learning), designed for sample-efficient alignment from human intervention. Instead of inferring the complete human behavior characteristics, MEReQ infers a residual reward function that captures the discrepancy between the human expert’s and the prior policy’s underlying reward functions. It then employs Residual Q-Learning (RQL) to align the policy with human preferences using this residual reward function. Extensive evaluations on simulated and real-world tasks demonstrate that MEReQ achieves sample-efficient policy alignment from human intervention.

arxiv情報

著者 Yuxin Chen,Chen Tang,Chenran Li,Ran Tian,Peter Stone,Masayoshi Tomizuka,Wei Zhan
発行日 2024-06-24 01:51:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, I.2.6 パーマリンク