要約
強化学習 (RL) アルゴリズムは、トレーニング効率の低さに悩まされることがよくあります。
この課題に対処する一般的なアプローチは、モンテカルロ ツリー検索 (MCTS) や値反復 (VI) などのモデルベースの計画アルゴリズムを環境モデルに統合することです。
ただし、VI では、値の伝播を通じて、後続の状態に基づいて前の状態の値を更新する大きなテンソルを反復処理する必要があり、その結果、計算負荷の高い操作が発生します。
RL トレーニングの効率を高めるために、価値学習プロセスの効率を向上させることを提案します。
離散状態とアクション空間を持つ決定論的環境では、サンプリングされた経験的状態遷移グラフ上で、ハイウェイと呼ばれる分岐のない一連の遷移により、エージェントが中間状態を経由することなく別の状態に移行できることが観察されます。
これらの分岐のない高速道路では、値の更新プロセスを単一ステップの操作に合理化できるため、段階的に更新する必要がなくなります。
この観察に基づいて、状態遷移をモデル化するために高速道路グラフを導入します。
ハイウェイ グラフは遷移モデルをコンパクトな表現に圧縮し、エッジで複数の状態遷移をカプセル化できるため、単一の反復で複数のタイム ステップにわたる値の伝播が可能になります。
高速道路グラフを RL に統合することにより、トレーニング プロセスが、特にトレーニングの初期段階で大幅に加速されます。
4 つのカテゴリの環境にわたる実験では、私たちの手法が確立された最先端の RL アルゴリズムよりも大幅に速く学習し (多くの場合 10 ~ 150 倍)、同等以上の期待収益を維持できることが実証されました。
さらに、ハイウェイ グラフを使用してトレーニングされたディープ ニューラル ネットワーク ベースのエージェントは、汎化機能の向上とストレージ コストの削減を示します。
コードは https://github.com/coodest/highwayRL で公開されています。
要約(オリジナル)
Reinforcement Learning (RL) algorithms often struggle with low training efficiency. A common approach to address this challenge is integrating model-based planning algorithms, such as Monte Carlo Tree Search (MCTS) or Value Iteration (VI), into the environmental model. However, VI requires iterating over a large tensor which updates the value of the preceding state based on the succeeding state through value propagation, resulting in computationally intensive operations. To enhance the RL training efficiency, we propose improving the efficiency of the value learning process. In deterministic environments with discrete state and action spaces, we observe that on the sampled empirical state-transition graph, a non-branching sequence of transitions-termed a highway-can take the agent to another state without deviation through intermediate states. On these non-branching highways, the value-updating process can be streamlined into a single-step operation, eliminating the need for step-by-step updates. Building on this observation, we introduce the highway graph to model state transitions. The highway graph compresses the transition model into a compact representation, where edges can encapsulate multiple state transitions, enabling value propagation across multiple time steps in a single iteration. By integrating the highway graph into RL, the training process is significantly accelerated, particularly in the early stages of training. Experiments across four categories of environments demonstrate that our method learns significantly faster than established and state-of-the-art RL algorithms (often by a factor of 10 to 150) while maintaining equal or superior expected returns. Furthermore, a deep neural network-based agent trained using the highway graph exhibits improved generalization capabilities and reduced storage costs. Code is publicly available at https://github.com/coodest/highwayRL.
arxiv情報
著者 | Zidu Yin,Zhen Zhang,Dong Gong,Stefano V. Albrecht,Javen Q. Shi |
発行日 | 2025-01-07 15:26:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google