要約
強化学習の主な課題は、カリキュラムを自動的に生成して、トレーニング時間を短縮したり、一部のターゲットタスクのパフォーマンスを改善することです。
一連のスキル、報酬構造に関連する一連の目標、および(おそらく目に見えない)タスクのポリシーパフォーマンスを予測するための一連の環境機能をモデル化するSebns(スキル環境ベイズネットワーク)を紹介します。
SEBNからのエージェントの成功の推定推定値を使用して、予想される改善により可能な次のタスクを比較検討するアルゴリズムを開発します。
3つの環境で得られるカリキュラムの利点を評価します:離散グリッドワールド、連続制御、シミュレートされたロボット工学。
結果は、Sebnを使用して構築されたカリキュラムが他のベースラインを頻繁に上回ることを示しています。
要約(オリジナル)
A major challenge for reinforcement learning is automatically generating curricula to reduce training time or improve performance in some target task. We introduce SEBNs (Skill-Environment Bayesian Networks) which model a probabilistic relationship between a set of skills, a set of goals that relate to the reward structure, and a set of environment features to predict policy performance on (possibly unseen) tasks. We develop an algorithm that uses the inferred estimates of agent success from SEBN to weigh the possible next tasks by expected improvement. We evaluate the benefit of the resulting curriculum on three environments: a discrete gridworld, continuous control, and simulated robotics. The results show that curricula constructed using SEBN frequently outperform other baselines.
arxiv情報
著者 | Vincent Hsiao,Mark Roberts,Laura M. Hiatt,George Konidaris,Dana Nau |
発行日 | 2025-02-21 18:38:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google