要約
複数の抽象レベルでアクションを計画する機能により、インテリジェント エージェントは複雑なタスクを効果的に解決できます。
ただし、低レベルと高レベルの両方の計画のモデルをデモンストレーションから学習することは、特に高次元の入力の場合に困難であることが判明しています。
この問題に対処するために、強化学習を使用して、状態と選択されたサブ目標を考慮して報酬の大きさと低レベルのアクションの予測可能性を関連付けることにより、エキスパートの軌跡のサブ目標を特定することを提案します。
特定されたサブ目標に対してベクトル量子化された生成モデルを構築し、サブ目標レベルの計画を実行します。
実験では、このアルゴリズムは、複雑で長期にわたる意思決定の問題の解決に優れており、最先端のアルゴリズムを上回っています。
計画能力があるため、私たちのアルゴリズムはトレーニング セット内の軌道よりも優れた軌道を見つけることができます。
要約(オリジナル)
The ability to plan actions on multiple levels of abstraction enables intelligent agents to solve complex tasks effectively. However, learning the models for both low and high-level planning from demonstrations has proven challenging, especially with higher-dimensional inputs. To address this issue, we propose to use reinforcement learning to identify subgoals in expert trajectories by associating the magnitude of the rewards with the predictability of low-level actions given the state and the chosen subgoal. We build a vector-quantized generative model for the identified subgoals to perform subgoal-level planning. In experiments, the algorithm excels at solving complex, long-horizon decision-making problems outperforming state-of-the-art. Because of its ability to plan, our algorithm can find better trajectories than the ones in the training set
arxiv情報
著者 | Kalle Kujanpää,Joni Pajarinen,Alexander Ilin |
発行日 | 2023-05-29 13:44:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google