要約
ロボット操作や自動運転などの複雑な現実世界のタスクでは、多くの場合、正確な学習目標やタスクの説明を指定するよりも、専門家のデモンストレーションを収集する方が簡単です。
専門家データからの学習は、行動の複製を通じて、または報酬関数の学習 (逆強化学習) によって実現できます。
後者では、推論された報酬関数に基づいて、トレーニング分布の外側にある追加データを使用したトレーニングが可能になります。
自動的に選択された状態特徴からコンパクトで透明な報酬モデルを構築する新しいアプローチを提案します。
これらの推論された報酬は明示的な形式を持ち、標準の強化学習アルゴリズムを最初からトレーニングすることで、専門家の行動に厳密に一致するポリシーの学習を可能にします。
連続的かつ高次元の状態空間を持つさまざまなロボット環境でこの方法のパフォーマンスを検証します。
ウェブページ: \url{https://sites.google.com/view/transparent-reward}。
要約(オリジナル)
In complex real-world tasks such as robotic manipulation and autonomous driving, collecting expert demonstrations is often more straightforward than specifying precise learning objectives and task descriptions. Learning from expert data can be achieved through behavioral cloning or by learning a reward function, i.e., inverse reinforcement learning. The latter allows for training with additional data outside the training distribution, guided by the inferred reward function. We propose a novel approach to construct compact and transparent reward models from automatically selected state features. These inferred rewards have an explicit form and enable the learning of policies that closely match expert behavior by training standard reinforcement learning algorithms from scratch. We validate our method’s performance in various robotic environments with continuous and high-dimensional state spaces. Webpage: \url{https://sites.google.com/view/transparent-reward}.
arxiv情報
著者 | Daulet Baimukashev,Gokhan Alcan,Kevin Sebastian Luck,Ville Kyrki |
発行日 | 2024-10-24 10:05:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google