Outcome-directed Reinforcement Learning by Uncertainty & Temporal Distance-Aware Curriculum Goal Generation

要約

現在の強化学習 (RL) は、望ましい結果や高い報酬がめったに観察されないような困難な探索問題を解決するときに、しばしば問題を抱えています。
一連の代理タスクを提案することによって複雑なタスクを解決するフレームワークであるカリキュラム RL は妥当な結果を示していますが、以前の研究のほとんどは、望ましい結果の状態への調整されたガイダンスを取得するためのメカニズムがないため、依然としてカリキュラムの提案が困難です。
事前のドメイン知識なしで。
それを軽減するために、2部マッチング問題を解決することにより、結果指向のRLの不確実性と時間的距離を意識したカリキュラム目標生成方法を提案します。
カリキュラムの正確に調整されたガイダンスを望ましい結果の状態に提供するだけでなく、以前のカリキュラムの RL メソッドと比較して、はるかに優れたサンプル効率と幾何学にとらわれないカリキュラムの目標提案機能をもたらすことができます。
私たちのアルゴリズムは、定量的および定性的な方法で、さまざまな困難なナビゲーションタスクやロボット操作タスクでこれらの従来の方法よりも大幅に優れていることを示しています。

要約(オリジナル)

Current reinforcement learning (RL) often suffers when solving a challenging exploration problem where the desired outcomes or high rewards are rarely observed. Even though curriculum RL, a framework that solves complex tasks by proposing a sequence of surrogate tasks, shows reasonable results, most of the previous works still have difficulty in proposing curriculum due to the absence of a mechanism for obtaining calibrated guidance to the desired outcome state without any prior domain knowledge. To alleviate it, we propose an uncertainty & temporal distance-aware curriculum goal generation method for the outcome-directed RL via solving a bipartite matching problem. It could not only provide precisely calibrated guidance of the curriculum to the desired outcome states but also bring much better sample efficiency and geometry-agnostic curriculum goal proposal capability compared to previous curriculum RL methods. We demonstrate that our algorithm significantly outperforms these prior methods in a variety of challenging navigation tasks and robotic manipulation tasks in a quantitative and qualitative way.

arxiv情報

著者 Daesol Cho,Seungjae Lee,H. Jin Kim
発行日 2023-02-20 07:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク