要約
目標条件付き強化学習 (GCRL) を使用すると、エージェントは一連のスキルを学習するためのさまざまな目標を自発的に設定できます。
さまざまな分野で優れた研究が提案されているにもかかわらず、時間的に延長されたタスクで遠い目標を達成することは、GCRL にとって依然として課題です。
現在の研究では、計画アルゴリズムを活用して中間サブ目標を計画し、GCRL を強化することで、この問題に取り組んでいます。
彼らの方法には、(i) 有効なサブゴールを検索するための状態表現空間、および (ii) サブゴールの到達可能性を測定するための距離関数という 2 つの重要な要件が必要です。
ただし、表現がコンパクトではないため、高次元の状態空間にスケールするのに苦労します。
さらに、標準の GC ポリシーでは高品質のトレーニング データを収集できないため、距離関数が不正確になります。
どちらも計画とポリシー学習の効率とパフォーマンスに影響します。
この論文では、時間的に延長されたタスクを解決するために、解絡ベースの到達可能性計画 (REPlan) と組み合わせた目標条件付き RL アルゴリズムを提案します。
REPlan では、自己教師ありの方法で高次元の観察からロボットのポーズとオブジェクトの位置を解きほぐすコンパクトな表現を学習するための解きほぐし表現モジュール (DRM) が提案されています。
単純な到達可能性識別モジュール (REM) も、サブゴールの時間的距離を決定するように設計されています。
さらに、REM は固有のボーナスを計算して、トレーニング用の新しい状態の収集を促進します。
REPlan を 3 つのビジョンベースのシミュレーション タスクと 1 つの現実世界のタスクで評価します。
実験は、私たちの REPlan が、時間的に延長されたタスクを解決する際に、従来の最先端の方法よりも大幅に優れていることを示しています。
要約(オリジナル)
Goal-Conditioned Reinforcement Learning (GCRL) can enable agents to spontaneously set diverse goals to learn a set of skills. Despite the excellent works proposed in various fields, reaching distant goals in temporally extended tasks remains a challenge for GCRL. Current works tackled this problem by leveraging planning algorithms to plan intermediate subgoals to augment GCRL. Their methods need two crucial requirements: (i) a state representation space to search valid subgoals, and (ii) a distance function to measure the reachability of subgoals. However, they struggle to scale to high-dimensional state space due to their non-compact representations. Moreover, they cannot collect high-quality training data through standard GC policies, which results in an inaccurate distance function. Both affect the efficiency and performance of planning and policy learning. In the paper, we propose a goal-conditioned RL algorithm combined with Disentanglement-based Reachability Planning (REPlan) to solve temporally extended tasks. In REPlan, a Disentangled Representation Module (DRM) is proposed to learn compact representations which disentangle robot poses and object positions from high-dimensional observations in a self-supervised manner. A simple REachability discrimination Module (REM) is also designed to determine the temporal distance of subgoals. Moreover, REM computes intrinsic bonuses to encourage the collection of novel states for training. We evaluate our REPlan in three vision-based simulation tasks and one real-world task. The experiments demonstrate that our REPlan significantly outperforms the prior state-of-the-art methods in solving temporally extended tasks.
arxiv情報
著者 | Zhifeng Qian,Mingyu You,Hongjun Zhou,Xuanhui Xu,Bin He |
発行日 | 2023-07-20 13:08:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google