Improving Policy Optimization via $\varepsilon$-Retrain

要約

単調な改善を保証してポリシーを最適化しながら、行動の好みを促進するように設計された探索戦略である $\varepsilon$-retrain を紹介します。
この目的を達成するために、再訓練領域 (エージェントが行動の好みに従わなかった状態空間の部分) を収集するための反復手順を導入します。
次に、私たちの方法は、減衰係数 $\varepsilon$ を使用して、典型的な均一な再起動状態分布と再訓練領域を切り替え、エージェントが優先順位に違反した状況で再訓練できるようにします。
移動、ナビゲーション、および電力ネットワークのタスクにわたる数百のシードを対象とした実験により、私たちの方法により、大幅なパフォーマンスとサンプル効率の向上を示すエージェントが得られることが示されました。
さらに、ニューラル ネットワークの形式的な検証を使用して、エージェントが行動の好みにどの程度従うかを実証的に定量化します。

要約(オリジナル)

We present $\varepsilon$-retrain, an exploration strategy designed to encourage a behavioral preference while optimizing policies with monotonic improvement guarantees. To this end, we introduce an iterative procedure for collecting retrain areas — parts of the state space where an agent did not follow the behavioral preference. Our method then switches between the typical uniform restart state distribution and the retrain areas using a decaying factor $\varepsilon$, allowing agents to retrain on situations where they violated the preference. Experiments over hundreds of seeds across locomotion, navigation, and power network tasks show that our method yields agents that exhibit significant performance and sample efficiency improvements. Moreover, we employ formal verification of neural networks to provably quantify the degree to which agents adhere to behavioral preferences.

arxiv情報

著者 Luca Marzari,Changliu Liu,Priya L. Donti,Enrico Marchesini
発行日 2024-06-12 15:16:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク