Improving Policy Optimization via $\varepsilon$-Retrain

要約

単調な改善保証でポリシーを最適化しながら、行動の好みを奨励する探索戦略である$ \ varepsilon $ -retrainを提示します。
この目的のために、再訓練領域を収集するための反復手順を紹介します。これは、エージェントが行動の好みを満たさなかった状態空間の一部です。
私たちの方法は、典型的な均一な再起動状態分布と減衰係数$ \ varepsilon $を使用して再訓練領域を切り替え、エージェントが好みに違反した状況で再訓練できるようにします。
また、ニューラルネットワークの正式な検証を採用して、これらの行動の好みをエージェントが遵守する程度を証明します。
移動、パワーネットワーク、およびナビゲーションタスク全体の数百の種子を介した実験では、この方法が大幅なパフォーマンスとサンプル効率の改善を示すエージェントを生成することを示しています。

要約(オリジナル)

We present $\varepsilon$-retrain, an exploration strategy encouraging a behavioral preference while optimizing policies with monotonic improvement guarantees. To this end, we introduce an iterative procedure for collecting retrain areas — parts of the state space where an agent did not satisfy the behavioral preference. Our method switches between the typical uniform restart state distribution and the retrain areas using a decaying factor $\varepsilon$, allowing agents to retrain on situations where they violated the preference. We also employ formal verification of neural networks to provably quantify the degree to which agents adhere to these behavioral preferences. Experiments over hundreds of seeds across locomotion, power network, and navigation tasks show that our method yields agents that exhibit significant performance and sample efficiency improvements.

arxiv情報

著者 Luca Marzari,Priya L. Donti,Changliu Liu,Enrico Marchesini
発行日 2025-04-14 14:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク