Convex Is Back: Solving Belief MDPs With Convexity-Informed Deep Reinforcement Learning

要約

ディープ補強学習(DRL)のための新しい方法を提示し、部分的に観察可能なマルコフ決定プロセス(POMDP)の信念空間に値関数の凸特性を組み込みます。
ハードおよびソフト強化の凸性を2つの異なるアプローチとして導入し、2つのよく知られているPOMDP環境、つまりTigerとFieldVisionRocksampleの問題で標準DRLとそのパフォーマンスを比較します。
我々の調査結果は、凸機能を含めると、特に分散型ドメインでテストする場合、エージェントのパフォーマンスを大幅に向上させるとともに、ハイパーパラメーター空間に対する堅牢性を高めることができることを示しています。
この作業のソースコードは、https://github.com/dakout/convex_drlにあります。

要約(オリジナル)

We present a novel method for Deep Reinforcement Learning (DRL), incorporating the convex property of the value function over the belief space in Partially Observable Markov Decision Processes (POMDPs). We introduce hard- and soft-enforced convexity as two different approaches, and compare their performance against standard DRL on two well-known POMDP environments, namely the Tiger and FieldVisionRockSample problems. Our findings show that including the convexity feature can substantially increase performance of the agents, as well as increase robustness over the hyperparameter space, especially when testing on out-of-distribution domains. The source code for this work can be found at https://github.com/Dakout/Convex_DRL.

arxiv情報

著者 Daniel Koutas,Daniel Hettegger,Kostas G. Papakonstantinou,Daniel Straub
発行日 2025-03-12 14:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク