要約
既存のオフライン階層強化学習方法は、サブゴールシーケンスを生成するために高レベルのポリシー学習に依存しています。
しかし、タスクの範囲が増加するにつれて効率が低下し、異なる軌跡にわたって有用な状態遷移を縫うための効果的な戦略が欠けています。
グラフアシストステッチ(GAS)を提案します。これは、明示的な高レベルポリシーを学習するのではなく、グラフ検索問題としてサブゴール選択を策定する新しいフレームワークです。
状態を時間距離表現(TDR)空間に埋め込むことにより、ガスクラスターは異なる軌道から統一グラフノードに意味的に類似した状態を統合し、効率的な遷移ステッチを可能にします。
次に、最短パスアルゴリズムが適用され、グラフ内のサブゴールシーケンスが選択され、低レベルのポリシーがサブゴールに到達することを学びます。
グラフの品質を向上させるために、騒がしい遷移状態または非効率的な遷移状態を除去し、タスクのパフォーマンスを大幅に向上させる時間的効率(TE)メトリックを導入します。
ガスは、移動、ナビゲーション、操作タスク全体で、オフラインの以前のHRLメソッドよりも優れています。
特に、最もステッチ批判的なタスクでは、88.3のスコアを達成し、以前の最新スコア1.0を劇的に超えています。
ソースコードは、https://github.com/qortmdgh4141/gasで入手できます。
要約(オリジナル)
Existing offline hierarchical reinforcement learning methods rely on high-level policy learning to generate subgoal sequences. However, their efficiency degrades as task horizons increase, and they lack effective strategies for stitching useful state transitions across different trajectories. We propose Graph-Assisted Stitching (GAS), a novel framework that formulates subgoal selection as a graph search problem rather than learning an explicit high-level policy. By embedding states into a Temporal Distance Representation (TDR) space, GAS clusters semantically similar states from different trajectories into unified graph nodes, enabling efficient transition stitching. A shortest-path algorithm is then applied to select subgoal sequences within the graph, while a low-level policy learns to reach the subgoals. To improve graph quality, we introduce the Temporal Efficiency (TE) metric, which filters out noisy or inefficient transition states, significantly enhancing task performance. GAS outperforms prior offline HRL methods across locomotion, navigation, and manipulation tasks. Notably, in the most stitching-critical task, it achieves a score of 88.3, dramatically surpassing the previous state-of-the-art score of 1.0. Our source code is available at: https://github.com/qortmdgh4141/GAS.
arxiv情報
著者 | Seungho Baek,Taegeon Park,Jongchan Park,Seungjun Oh,Yusung Kim |
発行日 | 2025-06-09 13:26:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google