要約
逆強化学習 (IRL) は、専門家のデモンストレーションから報酬関数を学習する模倣学習アプローチです。
これを使用すると、強化学習の一般化能力を維持しながら、手動で報酬を指定するという難しくて退屈な手順が回避されます。
IRL では、報酬は通常、特徴の線形結合として表されます。
連続状態空間では、状態変数だけでは特徴量として使用できるほど豊富ではありませんが、どの特徴量が優れているかは一般に知られていません。
この問題に対処するために、多項式基底関数を使用して特徴の候補セットを形成する方法を提案します。これにより、状態分布の統計的モーメントのマッチングが可能になることが示されています。
次に、軌跡の確率と特徴の期待値の間の相関関係を利用して、候補の特徴の選択が実行されます。
複雑さが増大する非線形制御タスク全体にわたって専門家のポリシーを捕捉する報酬関数を回復することにより、このアプローチの有効性を実証します。
コード、データ、ビデオは https://sites.google.com/view/feature4irl で入手できます。
要約(オリジナル)
Inverse reinforcement learning (IRL) is an imitation learning approach to learning reward functions from expert demonstrations. Its use avoids the difficult and tedious procedure of manual reward specification while retaining the generalization power of reinforcement learning. In IRL, the reward is usually represented as a linear combination of features. In continuous state spaces, the state variables alone are not sufficiently rich to be used as features, but which features are good is not known in general. To address this issue, we propose a method that employs polynomial basis functions to form a candidate set of features, which are shown to allow the matching of statistical moments of state distributions. Feature selection is then performed for the candidates by leveraging the correlation between trajectory probabilities and feature expectations. We demonstrate the approach’s effectiveness by recovering reward functions that capture expert policies across non-linear control tasks of increasing complexity. Code, data, and videos are available at https://sites.google.com/view/feature4irl.
arxiv情報
著者 | Daulet Baimukashev,Gokhan Alcan,Ville Kyrki |
発行日 | 2024-03-22 10:05:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google