Dynamic Subgoal-based Exploration via Bayesian Optimization

要約

高価でインタラクションが限られている、報酬が希薄なナビゲーション環境での強化学習は困難であり、効果的な探索の必要性をもたらします。
実世界のトレーニングを必要とする複雑なナビゲーション タスク (安価なシミュレーターが利用できない場合) を動機として、未知の環境分布に直面し、探索戦略を決定する必要があるエージェントを検討します。
同じ環境配布から抽出されたテスト環境で評価される前に、一連のトレーニング環境を利用してポリシーを改善する場合があります。
既存のアプローチのほとんどは固定の探索戦略に焦点を当てていますが、探索をメタ最適化問題として捉える少数のアプローチは、コスト効率の高い探索の必要性を無視する傾向があります。
我々は、動的なサブゴールベースの探索戦略のクラスを効率的に探索する、コストを意識したベイジアン最適化アプローチを提案します。
このアルゴリズムは、報酬の少なさ、高価なインタラクション、ノイズといった課題を克服するために、サブゴールの位置、各エピソードの長さ、トライアルごとの複製数など、さまざまな要素を調整します。
実験による評価では、新しいアプローチが多くの問題領域にわたって既存のベースラインを上回るパフォーマンスを示しています。
また、理論的基礎を提供し、この方法が最適に近いサブゴール設計を漸近的に特定することを証明します。

要約(オリジナル)

Reinforcement learning in sparse-reward navigation environments with expensive and limited interactions is challenging and poses a need for effective exploration. Motivated by complex navigation tasks that require real-world training (when cheap simulators are not available), we consider an agent that faces an unknown distribution of environments and must decide on an exploration strategy. It may leverage a series of training environments to improve its policy before it is evaluated in a test environment drawn from the same environment distribution. Most existing approaches focus on fixed exploration strategies, while the few that view exploration as a meta-optimization problem tend to ignore the need for cost-efficient exploration. We propose a cost-aware Bayesian optimization approach that efficiently searches over a class of dynamic subgoal-based exploration strategies. The algorithm adjusts a variety of levers — the locations of the subgoals, the length of each episode, and the number of replications per trial — in order to overcome the challenges of sparse rewards, expensive interactions, and noise. An experimental evaluation demonstrates that the new approach outperforms existing baselines across a number of problem domains. We also provide a theoretical foundation and prove that the method asymptotically identifies a near-optimal subgoal design.

arxiv情報

著者 Yijia Wang,Matthias Poloczek,Daniel R. Jiang
発行日 2023-10-12 17:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク