要約
モデルフリーの強化学習方法には、訓練されたポリシーに行動の制約を課す固有のメカニズムがありません。
特定の拡張機能は存在しますが、追加の報酬信号を備えた値の制約や面会密度の制約など、特定のタイプの制約に限定されています。
この作業では、これらの既存の手法を統合し、価値ベースおよびアクター批判の強化学習方法のための一般的なプライマルデュアルフレームワークを使用して、古典的な最適化と制御理論でギャップを埋めます。
得られた二重製剤は、このような二重制約(または正規化項)とプライマルの報酬の修正との本質的な関係が明らかにされているため、学習ポリシーに追加の制約を課すのに特に役立つことが判明しました。
さらに、このフレームワークを使用して、いくつかの新しいタイプの制約を導入することができ、ポリシーのアクション密度または連続した状態とアクション間の移行に関連するコストに境界を課すことができます。
調整されたプライマル二重の最適化問題から、トレーニング可能な報酬の変更を使用してトレーニング全体で自動的に処理されるポリシー制約のさまざまな組み合わせをサポートする実用的なアルゴリズムが導き出されます。
提案された$ \ texttt {dualcrl} $メソッドは、より詳細に調べられ、2つの解釈可能な環境で異なる(組み合わせ)制約の下で評価されます。
結果は、このようなシステムの設計者に、可能なポリシー制約の多用途のツールボックスを最終的に提供するメソッドの有効性を強調しています。
要約(オリジナル)
Model-free reinforcement learning methods lack an inherent mechanism to impose behavioural constraints on the trained policies. Although certain extensions exist, they remain limited to specific types of constraints, such as value constraints with additional reward signals or visitation density constraints. In this work we unify these existing techniques and bridge the gap with classical optimization and control theory, using a generic primal-dual framework for value-based and actor-critic reinforcement learning methods. The obtained dual formulations turn out to be especially useful for imposing additional constraints on the learned policy, as an intrinsic relationship between such dual constraints (or regularization terms) and reward modifications in the primal is revealed. Furthermore, using this framework, we are able to introduce some novel types of constraints, allowing to impose bounds on the policy’s action density or on costs associated with transitions between consecutive states and actions. From the adjusted primal-dual optimization problems, a practical algorithm is derived that supports various combinations of policy constraints that are automatically handled throughout training using trainable reward modifications. The proposed $\texttt{DualCRL}$ method is examined in more detail and evaluated under different (combinations of) constraints on two interpretable environments. The results highlight the efficacy of the method, which ultimately provides the designer of such systems with a versatile toolbox of possible policy constraints.
arxiv情報
著者 | Bram De Cooman,Johan Suykens |
発行日 | 2025-04-25 15:20:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google