要約
模倣学習 (IL) では、実世界のデータの性質が多様であるため、次善の異種デモンストレーションを利用することは大きな課題となります。
ただし、標準の IL アルゴリズムでは、これらのデータセットは同種であるとみなされるため、次善のデモンストレーターの欠陥が引き継がれます。
この問題に対するこれまでのアプローチは、高品質のデータサブセット、信頼度ランキング、明示的な環境知識などの非現実的な仮定に依存していました。
この論文では、デモンストレーターの専門知識の事前知識なしでこれらのハードルを克服する新しいフレームワークである IRLEED (デモンストレーターの専門知識の推定による逆強化学習) を紹介します。
IRLEED は、報酬バイアスと行動の分散に対処するデモンストレーターの準最適性の一般モデルと、多様な準最適デモンストレーションから最適なポリシーを効率的に導き出す最大エントロピー IRL フレームワークを組み合わせることにより、既存の逆強化学習 (IRL) アルゴリズムを強化します。
オンラインとオフラインの両方の IL 設定で、シミュレートされたデータと人間が生成したデータを使用した実験により、IRLEED の適応性と有効性が実証され、次善のデモンストレーションから学習するための多用途のソリューションとなっています。
要約(オリジナル)
In Imitation Learning (IL), utilizing suboptimal and heterogeneous demonstrations presents a substantial challenge due to the varied nature of real-world data. However, standard IL algorithms consider these datasets as homogeneous, thereby inheriting the deficiencies of suboptimal demonstrators. Previous approaches to this issue rely on impractical assumptions like high-quality data subsets, confidence rankings, or explicit environmental knowledge. This paper introduces IRLEED, Inverse Reinforcement Learning by Estimating Expertise of Demonstrators, a novel framework that overcomes these hurdles without prior knowledge of demonstrator expertise. IRLEED enhances existing Inverse Reinforcement Learning (IRL) algorithms by combining a general model for demonstrator suboptimality to address reward bias and action variance, with a Maximum Entropy IRL framework to efficiently derive the optimal policy from diverse, suboptimal demonstrations. Experiments in both online and offline IL settings, with simulated and human-generated data, demonstrate IRLEED’s adaptability and effectiveness, making it a versatile solution for learning from suboptimal demonstrations.
arxiv情報
著者 | Mark Beliaev,Ramtin Pedarsani |
発行日 | 2024-12-13 18:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google