要約
ロボット操作や自律走行などの複雑な実世界タスクでは、正確な学習目標やタスク記述を指定するよりも、専門家のデモンストレーションを収集する方が簡単な場合が多い。エキスパートデータからの学習は、行動クローニングや報酬関数の学習、すなわち逆強化学習によって達成することができる。後者は、推測された報酬関数に導かれながら、訓練分布外の追加データを用いた学習を可能にする。我々は、自動的に選択された状態特徴から、コンパクトで透明な報酬モデルを構築する新しいアプローチを提案する。これらの推論された報酬は明示的な形式を持ち、標準的な強化学習アルゴリズムをゼロから訓練することで、専門家の行動と密接に一致するポリシーの学習を可能にする。連続的で高次元の状態空間を持つ様々なロボット環境において、本手法の性能を検証する。ウェブページ\URL{https://sites.google.com/view/transparent-reward}.
要約(オリジナル)
In complex real-world tasks such as robotic manipulation and autonomous driving, collecting expert demonstrations is often more straightforward than specifying precise learning objectives and task descriptions. Learning from expert data can be achieved through behavioral cloning or by learning a reward function, i.e., inverse reinforcement learning. The latter allows for training with additional data outside the training distribution, guided by the inferred reward function. We propose a novel approach to construct compact and transparent reward models from automatically selected state features. These inferred rewards have an explicit form and enable the learning of policies that closely match expert behavior by training standard reinforcement learning algorithms from scratch. We validate our method’s performance in various robotic environments with continuous and high-dimensional state spaces. Webpage: \url{https://sites.google.com/view/transparent-reward}.
arxiv情報
| 著者 | Daulet Baimukashev,Gokhan Alcan,Kevin Sebastian Luck,Ville Kyrki |
| 発行日 | 2025-05-01 23:03:13+00:00 |
| arxivサイト | arxiv_id(pdf) |