A tale of two goals: leveraging sequentiality in multi-goal scenarios

要約

いくつかの階層的強化学習方法は、中間目標のグラフまたはシーケンスを作成するための計画を活用し、いくつかの最終目標を達成するために、低レベルの目標条件付き(GC)ポリシーを導きます。
低レベルのポリシーは、通常、現在の目標に条件付けられており、できるだけ早く到達することを目的としています。
ただし、このアプローチは、中間目標に複数の方法で到達できる場合に失敗する可能性があり、その一部は後続の目標に向かって継続することを不可能にする可能性があります。
この問題に対処するために、最適化の目的が現在の目標に到達するだけでなく、その後の目標にも到達するポリシーを支持するマルコフ決定プロセス(MDP)の2つのインスタンスを紹介します。
1つ目は、エージェントは現在の目標と最終目標の両方に条件付けられ、2番目の目標では、シーケンスの次の2つの目標に条件付けられます。
中間目標のシーケンスが示されているナビゲーションおよびポールバランスタスクに関する一連の実験を実施します。
標準GC-MDPと提案されているMDPの両方でTD3+でトレーニングされたポリシーを評価することにより、ほとんどの場合、次の2つの目標の条件付けにより、他のアプローチよりも安定性とサンプル効率が向上することが示されます。

要約(オリジナル)

Several hierarchical reinforcement learning methods leverage planning to create a graph or sequences of intermediate goals, guiding a lower-level goal-conditioned (GC) policy to reach some final goals. The low-level policy is typically conditioned on the current goal, with the aim of reaching it as quickly as possible. However, this approach can fail when an intermediate goal can be reached in multiple ways, some of which may make it impossible to continue toward subsequent goals. To address this issue, we introduce two instances of Markov Decision Process (MDP) where the optimization objective favors policies that not only reach the current goal but also subsequent ones. In the first, the agent is conditioned on both the current and final goals, while in the second, it is conditioned on the next two goals in the sequence. We conduct a series of experiments on navigation and pole-balancing tasks in which sequences of intermediate goals are given. By evaluating policies trained with TD3+HER on both the standard GC-MDP and our proposed MDPs, we show that, in most cases, conditioning on the next two goals improves stability and sample efficiency over other approaches.

arxiv情報

著者 Olivier Serris,Stéphane Doncieux,Olivier Sigaud
発行日 2025-03-27 16:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.LG パーマリンク