Planning Goals for Exploration

要約

未知の環境に放り込まれたエージェントは、その環境についてすばやく学習し、その環境内でさまざまなタスクを実行する方法を知るにはどうすればよいでしょうか?
エージェントが探索を最大化するためにトレーニング時に目標を設定する方法を特定することにより、目標条件付き強化学習パラダイム内でこの問題に対処します。
「探索的目標の計画」(PEG) を提案します。これは、トレーニング エピソードごとに目標を設定して、固有の探索報酬を直接最適化する方法です。
PEG は最初に、エージェントの目標条件付きポリシーが、現在のトレーニング レベルで、探査の可能性が高い状態になるような目標コマンドを選択します。
次に、それらの有望な州から始まる探査政策を開始します。
この直接的な最適化を可能にするために、PEG は世界モデルを学習し、サンプリング ベースの計画アルゴリズムを「目標コマンドの計画」に適応させます。
迷路内の多脚アリ ロボットや雑然とした卓上のロボット アームなど、挑戦的なシミュレートされたロボット工学環境では、PEG 探索により、ベースラインとアブレーションに関連する目標条件付きポリシーのより効率的かつ効果的なトレーニングが可能になります。
私たちのアリは長い迷路をうまくナビゲートし、ロボット アームはコマンドに応じて 3 つのブロックのスタックをうまく構築します。
ウェブサイト: https://penn-pal-lab.github.io/peg/

要約(オリジナル)

Dropped into an unknown environment, what should an agent do to quickly learn about the environment and how to accomplish diverse tasks within it? We address this question within the goal-conditioned reinforcement learning paradigm, by identifying how the agent should set its goals at training time to maximize exploration. We propose ‘Planning Exploratory Goals’ (PEG), a method that sets goals for each training episode to directly optimize an intrinsic exploration reward. PEG first chooses goal commands such that the agent’s goal-conditioned policy, at its current level of training, will end up in states with high exploration potential. It then launches an exploration policy starting at those promising states. To enable this direct optimization, PEG learns world models and adapts sampling-based planning algorithms to ‘plan goal commands’. In challenging simulated robotics environments including a multi-legged ant robot in a maze, and a robot arm on a cluttered tabletop, PEG exploration enables more efficient and effective training of goal-conditioned policies relative to baselines and ablations. Our ant successfully navigates a long maze, and the robot arm successfully builds a stack of three blocks upon command. Website: https://penn-pal-lab.github.io/peg/

arxiv情報

著者 Edward S. Hu,Richard Chang,Oleh Rybkin,Dinesh Jayaraman
発行日 2023-03-23 02:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク