DPO: Differential reinforcement learning with application to optimal configuration search

要約

連続状態およびアクション空間を使用した強化学習 (RL) は、依然としてこの分野で最も困難な問題の 1 つです。
現在の学習方法のほとんどは、学習エージェントにとって最適な戦略を導き出すために、値関数などの統合アイデンティティに焦点を当てています。
この論文では、代わりに元の RL 定式化の二重形式を研究し、限られたトレーニング サンプルと短い長さのエピソードの設定を処理できる最初の差分 RL フレームワークを提案します。
私たちのアプローチでは、ローカル移動演算子によってエンコードされたポリシーを最適化する点単位および段階単位の反復手法である Differential Policy Optimization (DPO) を導入します。
DPO の点ごとの収束推定を証明し、現在の理論的研究に匹敵するリグレス限界を提供します。
このような点ごとの推定により、学習されたポリシーがさまざまなステップにわたって最適なパスに均一に一致することが保証されます。
次に、ラグランジュ報酬を備えた最適な構成を探索する実践的な RL 問題のクラスに DPO を適用します。
DPO は実装が簡単で拡張性があり、いくつかの一般的な RL 手法に対するベンチマーク実験で競合する結果を示します。

要約(オリジナル)

Reinforcement learning (RL) with continuous state and action spaces remains one of the most challenging problems within the field. Most current learning methods focus on integral identities such as value functions to derive an optimal strategy for the learning agent. In this paper, we instead study the dual form of the original RL formulation to propose the first differential RL framework that can handle settings with limited training samples and short-length episodes. Our approach introduces Differential Policy Optimization (DPO), a pointwise and stage-wise iteration method that optimizes policies encoded by local-movement operators. We prove a pointwise convergence estimate for DPO and provide a regret bound comparable with current theoretical works. Such pointwise estimate ensures that the learned policy matches the optimal path uniformly across different steps. We then apply DPO to a class of practical RL problems which search for optimal configurations with Lagrangian rewards. DPO is easy to implement, scalable, and shows competitive results on benchmarking experiments against several popular RL methods.

arxiv情報

著者 Chandrajit Bajaj,Minh Nguyen
発行日 2024-04-24 03:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, math.ST, stat.TH パーマリンク